[机器学习-2]梯度下降法及实现(python)
样例(Example)
!!想看实现,直接跳转回溯线算法与精确线算法。
今天,在做机器学习的作业的时候,我的室友和我说线性回归那道题目应该用步长来做,如果大于步长减半,后来我实现这种算法以后,发现和题目要求不一样。我室友说的是回溯线算法(backtracking line search),而我最后实现的是精确线算法(exact line search)。现在和大家介绍这两种经典算法
Figure 1
题目长这样,就是用线性回归求一个二范数的最小值.
下面简单介绍一下GD所需的数学知识
利普西斯连续(L-continuity)
利普西斯光滑(L-smoothness)
由利普西斯光滑我们可以得到一个重要的结论
凸集(Convex Set)
凸函数(Convex Function)
需要说明的是,目前仍有许多数提到上凸与下凸的概念,这种定义已经过时而且明显没有搞清楚凸函数的真正定义是什么,凸函数指的是从函数上任意两点连线,线段与函数包围的区域为凸集
强凸(Strong Convexity)
类似的,根据强凸性,我们又可以得到机器学习中一些比较好的性质
方向导数
泰勒展开
机器学习中常见的泰勒展开为二阶,二阶导为海森矩阵,根据精度要求可能会高阶展开
局部与全局最优解
以最小解为例
对于凸集,有一个非常好的性质,也是机器学习里非常关心的一个性质就是局部最优解即全局最优解,所以很多时候会把一个集合拆成多个凸集进行优化
梯度下降法
梯度下降法通俗地讲就是沿负梯度方向迭代
在步长不变时可能会出现这种问题
回溯线算法(backtracking line search)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
def load_csv(path, data):
data_read = pd.read_csv(path)
list = data_read.values.tolist()
data = np.array(list)
# print(data)
return data
def f(x,A,b):
func = np.dot(A,x)-b
result = 0.5*np.linalg.norm(func, ord = 2)
return result
def step_gradient(func, start