【机器学习】线性回归(Linear Regression)

关于线性回归

线性回归一直是最广泛使用的回归方法之一,也是统计学中基本的分析方法。它在今天仍然被广泛使用,是因为线性关系比非线性关系更容易建模,所得模型解释也更容易。

简单线性回归

例如使用UCI波士顿房屋数据集,这个数据集数量比较小,并不代表大数据问题,但是可以拿来说明算法。
在这里插入图片描述
数据集包含了波士顿郊区的自住住房的平均值,以及可用于预测房屋价值的13个特征,包括犯罪率、住宅的房间数量、高速公路的可达性等。如上图所示,x轴代表平均房间数量,y轴代表平均价格,两个变量之间显然有相关性。线性回归使用户能够找到通过这些数据点中间的一条线,并以此估算出它们的这种相关性。
要在二维空间中绘制一条线需要两个值:线的斜率和线与y轴相交的值,也就是截距。如果房间数量为x,房价为h,以及截距和斜率分别为w0和w1,则用下面的公式描述:
在这里插入图片描述
目标是找到最合适数据的权重w0和w1,方法是最小化cost function。cost function如下:
在这里插入图片描述
这是所使用的数据集中所有m个实例的目标值域实际值之间的二次方差的平均值(均方误差)。如果基w0,w1绘制cost function,则它在三维空间中形成一个曲面,如下图所示:
在这里插入图片描述

将模型扩展到多元线性回归

有一个很好的方法来找到cost function的最小值,但是需要先扩展模型以使用多元线性回归。将剩余的12个维度添加到数据集后,函数就变成
在这里插入图片描述
重写多元线性回归模型的cost function如下:
在这里插入图片描述

使用正则方程法找到最小值

关于权重w0至wn的成本函数最小化的问题的向量化解由正则方程式给出:
在这里插入图片描述

使用梯度下降求最小值

前面的公式直接求解这个方程可能需要花费大量的资源,特别是如果数据集中有大量的维度,那么最常用的方法是梯度下降法。
梯度下降算法迭代工作,它从某一点开始,代表权重参数的猜测,并且对于每个权重参数wj计算相对于该权重参数的cost function的偏导数。偏导数告诉算法如何更改有问题的权重参数,以尽可能快的降到成本函数的最小值,如下图所示:
在这里插入图片描述
对于任何权重参数wj,cost function的偏导数如下
在这里插入图片描述
可以使用此值来更新权重参数wj以降低cost function的值。更新权重的方法如下
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值