梯度下降是一个用来求函数最小值的算法,其背后的思想是:开始时我们随机选择一个参数的组合,计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到达一个局部最小值,因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值,选择不同的初始参数组合可能会得到不同的局部最小值。
定义代价函数(cost function):
梯度下降算法如下:
对代价函数求偏导:
带入梯度算法后为:
其中α是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方
向向下迈出的步子有多大。
(以上内容取自斯坦福大学机器学习)
简单代码实现如下:
x = [1,2,3,4,5,6]
y = [13,14,20,21,25,30]
alpha = 0.01#学习率
k0 = 0
k1 = 0
epsilon = 0.001#误差
count = 0
m = len(x)
while True:
temp0 = 0
temp1 = 0
for i in range(m):
temp0 += (k0 + k1*x[i] - y[i]) / m
temp1 += (k0 + k1*x[i] - y[i]) * x[i] / m
temp0 = k0 - alpha * temp0
temp1 = k1 - alpha * temp1
k0 = temp0
k1 = temp1
loss =0
for j in range(m):
loss += 0.5/m * (k0 + k1*x[i] - y[i])**2
print('k0: %f,k1: %f,loss: %f'%(k0,k1,loss))
if(loss < epsilon):
break