梯度下降
梯度下降算法是为了解决连续解空间中极值。
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
问题描述
现有函数y=f(x1,x2,x3,…,xn),现需要求该函数的极小值。
算法思路
- 明确自己现在所处的位置
- 找到相对于该位置而言下降最快的方向
- 沿着第二步找到的方向走一小步,到达一个新的位置,此时的位置肯定比原来低
- 回到第一步
- 终止于最低点
伪代码
while True:
for x in (x1,x2,x3,...,xn):
fx_=derivatives(fx,x) # 求fx在x处的偏导,也就是fx在下降最快的方向在x方向上的投影的值
del_x=fx_.cul(col[:-1])# 计算本次数据在x方向上的值
x=x-learning_rate*del_x# 公式的精华部分,让x的值往下降最快方向稍微挪动
例子
现有函数f(x)=x^2*sin(x),使用梯度下降法求极小值。
f(x)对x求导得到f’(x)=2xsin(x)+x^2cos(x),初始化x=2,learning_rate=0.005。一下是一次迭代:
- 计算del_x,将x=2带入导数得到del_x=-0.9
- 计算新的x值,x=2-0.005*(-0.9)
不断迭代,直到收敛,得到极小值x=5。
线性回归
目标值预期是输入变量的线性组合。是已知预测未知的一种模型。
问题描述
现有一个数据集
x | y |
---|---|
1 | 3.2 |
2.1 | 5.4 |
2.9 | 7.3 |
需要你预测当x=100时y的值是什么?
解决思路
选择模型
观察数据,选择线性回归模型。
y
=
w
x
+
b
y=wx+b
y=wx+b
得到损失函数
l o s s = ∑ i = 0 n ( w x + b − y ) 2 loss=\sum_{i=0}^n(wx+b-y)^2 loss=i=0∑n(wx+b−y)2
使用梯度下降算法求最小值
我们的目的是求loss函数的最小值,那么梯度下降算法就有的用了。
需要调整w,b参数来取得loss的极小值。
repeat{
b=b-learning_rate*loss(w,b)对b的偏导
w=w-learning_rate*loss(w,b)对w的偏导
}