机器学习第二站——线性回归&&梯度下降法

概念

特征——feature

对应公式中的[x1,x2,...,xn][x1,x2,...,xn],即我们要根据data的特征进行预测,是模型的输入。

标签——label

对应公式中的y,即我们要预测的内容,比如是否为垃圾邮件(二元),房价(连续),which人脸(离散)。

损失——loss

描述模型好坏的一部分,即对于已知data,我们模型预测的好坏,数学上描述是实际data的label和预测的label之间的距离,距离越小lost越小,说明预测的越准。一般采用 
lost=sum(yy)2lost=sum(y真实−y预测)2

梯度——gradient

梯度是一个矢量,是一个函数的方向导数在某一点去的最大值的方向,即沿着梯度函数值变化最快。

训练——train

通过某种方法,调节参数,根据输入特征正确预测标签的过程

学习速率——learning rate

即机器学习过程中学习的速度,在梯度下降法中表示为每次参数改变的大小。

线性回归

作为理工狗,从各种课上应该都了解过线性回归,即对于成n维数据,在n维空间中看作多个点,选择一条直线,使得各个点到他的距离尽可能小。一般来说,我们接触的n=2,如图所示: 
图片标题 
我们可以选取一个y=w*x+b的直线,较好的符合点的分布规律。 
数学上可以证明w和b都是有确定取值的,使得lost最小,但是应用场景中data的feature会更多,即维度n会更大,也就意味着。 
y=w1x1+w2x2+....+wnxn+by=w1∗x1+w2∗x2+....+wn∗xn+b 
我们呢的任务就是确定[x1,x2,...,xn][x1,x2,...,xn]使得loss最小 
这时候单纯运用数学方法就会十分十分的复杂,机器学习就是让机器自己学习参数,达到一个全局最优解 
以常用的梯度下降法为例,首先随机选择参数w,b,得到一个lost,loss对w,b分别求梯度,向负梯度方向更新w,b,就可以得到一个更小的loss,经过多次迭代就能得到全局近似最优解 
这个过程,我们就称之为训练

梯度下降法

上面讲到了梯度,下面就说说机器学习中非常基础非常常用的一个方法——梯度下降法。 
梯度是函数关于某个参数在某一位置增长最大的方向,如果loss关于某参数(权重)的关系是一个二次函数,如图所示: 
图片标题 
一般来说我们希望loss最小,即沿着负梯度方向变化,每次变化一个学习速率。 
这里学习速率选择很重要,太小的话显然收敛速度很慢,太大的话又会跳过最低点,在最低点附近震荡不能收敛。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值