矩阵分解之梯度下降算法详解
梯度下降
梯度下降法,又称最速下降法。
1847年由著名的数学家柯西Cauchy给出。
基本思想
假设我们爬山,如果想最快的上到山顶,那么我们应该从山势最陡的地方上山。也就是山势变化最快的地方上山。
同样,如果从任意一点出发,需要最快搜索到函数最大值,那么我们也应该从函数变化最快的方向搜索。
函数变化最快的方向是什么呢?
函数的梯度。
如果函数为一元函数,梯度就是该函数的导数。
如果需要找的是函数极小点,那么应该从负梯度的方向寻找,该方法称之为梯度下降法。
要搜索极小值C点,在A点必须向x增加方向搜索,此时与A点梯度方向相反;在B点必须向x减小方向搜索,此时与B点梯度方向相反。总之,搜索极小值,必须向负梯度方向搜索。
例如,如下函数
最小点为C,如何在已知A点,函数方程的情况下求出C点的值呢。这时就要用到梯度下降算法一步一步推导求解。
首先给定一个步长step(这个是自己设定的值,代表每次下降的距离,相当于下山过程中每一步的长度),再给定一个设定的误差值e,代表最终算出的值与C坐标点的误差范围。
假定A,B,C三点之间形成的函数方程为y=x2。已知A点的坐标为X1=-2,求C点的坐标X0。
步骤:给定步长step=0.8,误差范围e=0.01。
求y=x2的导数y’=2x,带入X=-2点的坐标,y’=-4。
△x=step * y’=-3.2
修改x的值:x’=X-△x=X-step*y’= -2+3.2=1.2
将x’做为新的值带入y’=x2,y’=2×1.2=2.4
△x=step*y’=1.92
求x’’=x’-△x=1.2-1.92=-0.72
△x>e=0.01
…以此类推,直到△x<e=0.01终止**
上代码:
import numpy as np
def f(x):
return np.power(x, 2)
def f1(x):
return 2.0 * x
step=0.1
e=0.001
x=10.0
while True:
x1=f1(x)*step
if x1<e:
break
x=x-x1
print(x)
运行结果:
8.0
6.4
5.12
4.096
3.2768
2.62144
2.0971520000000003
1.6777216000000004
1.3421772800000003
1.0737418240000003
0.8589934592000003
0.6871947673600002
0.5497558138880001
0.43980465111040007
0.35184372088832006
0.281474976710656
0.22517998136852482
0.18014398509481985
0.14411518807585588
0.11529215046068471
0.09223372036854777
0.07378697629483821
0.05902958103587057
0.04722366482869646
0.037778931862957166
0.030223145490365734
0.024178516392292588
0.01934281311383407
0.015474250491067256
0.012379400392853806
0.009903520314283045
0.007922816251426436
0.006338253001141149
0.00507060240091292
0.0040564819207303355
x=0.004056