机器学习第二站——线性回归&&梯度下降法

最新推荐文章于 2022-11-24 15:19:45 发布

TstarYSY

最新推荐文章于 2022-11-24 15:19:45 发布

阅读量331

点赞数

文章标签：机器学习 tstar

本文链接：https://blog.csdn.net/TstarYSY/article/details/79600475

版权

概念

特征——feature

对应公式中的[x1,x2,...,xn],即我们要根据data的特征进行预测，是模型的输入。

标签——label

对应公式中的y，即我们要预测的内容，比如是否为垃圾邮件(二元)，房价(连续)，which人脸(离散)。

损失——loss

描述模型好坏的一部分，即对于已知data，我们模型预测的好坏，数学上描述是实际data的label和预测的label之间的距离，距离越小lost越小，说明预测的越准。一般采用
lost=sum(y真实−y预测)2

梯度——gradient

梯度是一个矢量，是一个函数的方向导数在某一点去的最大值的方向，即沿着梯度函数值变化最快。

训练——train

通过某种方法，调节参数，根据输入特征正确预测标签的过程

学习速率——learning rate

即机器学习过程中学习的速度，在梯度下降法中表示为每次参数改变的大小。

线性回归

作为理工狗，从各种课上应该都了解过线性回归，即对于成n维数据，在n维空间中看作多个点，选择一条直线，使得各个点到他的距离尽可能小。一般来说，我们接触的n=2，如图所示：
图片标题
我们可以选取一个y=w*x+b的直线，较好的符合点的分布规律。
数学上可以证明w和b都是有确定取值的，使得lost最小，但是应用场景中data的feature会更多，即维度n会更大，也就意味着。
y=w1∗x1+w2∗x2+....+wn∗xn+b
我们呢的任务就是确定[x1,x2,...,xn]使得loss最小
这时候单纯运用数学方法就会十分十分的复杂，机器学习就是让机器自己学习参数，达到一个全局最优解
以常用的梯度下降法为例，首先随机选择参数w,b，得到一个lost，loss对w,b分别求梯度，向负梯度方向更新w,b，就可以得到一个更小的loss，经过多次迭代就能得到全局近似最优解
这个过程，我们就称之为训练

梯度下降法

上面讲到了梯度，下面就说说机器学习中非常基础非常常用的一个方法——梯度下降法。
梯度是函数关于某个参数在某一位置增长最大的方向，如果loss关于某参数(权重)的关系是一个二次函数，如图所示：
图片标题
一般来说我们希望loss最小，即沿着负梯度方向变化，每次变化一个学习速率。
这里学习速率选择很重要，太小的话显然收敛速度很慢，太大的话又会跳过最低点，在最低点附近震荡不能收敛。