我们知道:一元二次方程:y = f(x) = x^2 + 2 * x + 1 = (x + 1)^2,当x = -1时,f(x)达到最小值0。
对方程求导数y’ = f’(x) = 2 * x + 2。也就是说y’随着x的变化而变化,当x = -1时,导数为0,而在这个时候,f(x)也恰好达到最小值。
另外,当x = -4时,y = 9,导数y’ = -6。红色的直线是x = -4时, f(x)的切线。沿着导数y’的反方向移动可以到达x = -1,即到达f(x)的最小值0。
相反,如果x = 2,y = 9,导数y’ = 6。沿着导数y’的反方向移动也可以到达x = -1,即到达f(x)的最小值0。
综合上述两种情况,只要沿着导数y’的反方向移动就可以到达f(x) 的最小值。
而且非常有意思的一点是,当x从-4往导数y’的反方向移动时,导数y’的值也不断的发生变化。如果我们每次都只让x移动一小步,则y’的值也逐渐增大。我们定义如下一个方程:
x = x - lr * dx。dx是x在当前点的导数,lr是一个比较小的正数,例如0.01,我们可以把lr看作是步长。
如果把x = x - lr * dx这个方程执行1000次,我们就可以发现无论x的初始值是多少,x都会变成接近-1的值,这时f(x) = 0,导数y’接近0。这