梯度下降法是一种迭代的方法。首先任意选取一组参数,然后一次次地对这组参数进行微小的调整,不断使得新的参数的损失函数更小。
梯度下降法的思路是:首先任意选择一个地点,然后在当前点找到坡度的方向(所谓的坡度在数学上就是微积分中的梯度),沿着该方向向下坡方向迈出一小步,作为新的地点进行下次迭代。这样不断地进行迈步,就可以走到一个海拔较低的地方。
来个经典图
梯度下降算法的形式化描述是:
- 初始化参数W0、t=0
- 步数 t<—t+1(这是一个箭头,原谅我找不到这个符号)
计算梯度
用Python实现梯度下降法
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import random
from scipy import stats
from scipy.optimize import fmin
f = lambda x:x**3-2*x**2+2
x = np.linspace(-1,2.5,1000)
plt.plot(x,f(x))
plt.xlim([-1,2.5])
plt.ylim([0,3])
plt.show()
x_old = 0
x_new =2
n_k = 0.1#step size
precision = 0.0001 #精度
x_list,y_list = [x_new],[f(x_new)]
def f_prime(x):
return 3*x**2-4*x
while abs(x_new-x_old) > precision:
x_old =x_new
s_k = -f_prime(x_old)
x_new = x_old +n_k*s_k
x_list.append(x_new)
y_list.append(f(x_new))
print"local minimum occurs at:",x_new
print "number of steps:",len(x_list)
plt.figure(figsize=[10,3])
plt.subplot(1,2,1)
plt.scatter(x_list,y_list,c="r")
plt.plot(x_list,y_list,c="r")
plt.plot(x,f(x), c="b")
plt.xlim([-1,2.5])
plt.ylim([0,3])
plt.title("Gradient descent")
plt.subplot(1,2,2)
plt.scatter(x_list,y_list,c="r")
plt.plot(x_list,y_list,c="r")
plt.plot(x,f(x), c="b")
plt.xlim([1.2,2.1])
plt.ylim([0,3])
plt.title("Gradient descent (zoomed in)")
plt.show()
梯度下降法是一个可以用来处理任何非约束优化问题的方法,但是它不能彻底解决该问题。它最大的不足是无法保证得到全局最优解。