多元回归求解 机器学习_机器学习第1.5篇——线性回归(基础概念)

772d8e50e5ae37fa267b307f4fc85613.png

上一篇:机器学习第1篇——KNN

ac536c4876072950f9500903be0070b3.png
本文大纲

0.引入

线性回归是啥,为啥在这里讲线性回归?

线性回归是传统的统计模型,早在1855年就被提出来了,高尔顿在《遗传的身高向平均数方向的回归》和他的学生卡尔·皮尔逊发现了后代身高会回归“平均”的现象,并拟合出了儿子身高与父亲身高的一元线性关系。

但是今天我们不是讲传统的分析方式,而是希望介绍一下“机器学习版”的线性回归建模,相比传统分析的建模(小数据,可手工计算),机器学习是通过让机器学习大量的数据从而拟合线性模型,模型预测性的好坏很大成都想取决于数据是否足够。所以当数据有偏差的时候,模型就会“过拟合”或者“欠拟合”的现象,从而需要一些方法去防止以上两种现象。(补充参考资料)

本文主要是介绍简单线性模型的拟合过程和其中一种防止“过拟合”和“欠拟合”的方法——正则化。

1.单变量线性回归

模型的数学描述:y = θ1*x+θ0

当θ1和θ0确定时,一条直线也就被确定了,如下图,根据数据集可以拟合出一条直线,类似的直线可以有很多条,什么样的直线(θ1和θ0)能够更好地预测实际情况呢?这就涉及到了模型的第一个核心——损失函数

ed758678b4191da797e24ae516476333.png
模拟数据

2. 损失函数

损失函数是计算模型预测值和实际观测值之间误差大小的一个公式,用来衡量模型在特定数据集上预测偏差的风险大小,要获得最优的模型,就需要最小化这个风险。

在线性回归中,使用的是均方误差作为损失函数(MSE,全称mean-square-error),又称平方损失,具体为预测值和观测值之间的误差的平方的均值,公式如下:

d915b4f5d7245fd82502cd8cf6740d66.png

71fdbac154a752c9c613159e0dc49df5.png

所以线下回归模型训练的目标是最小化MSE,要如何确达到这个目标呢?第一种是微积分方法,通过分别对所有的变量求导,并使他们都等于0,就可以求出最小值所在的点,但是当特征数量多和数据量大的时候,求解速度慢(有多慢呢,没概念,都是听说的)所以就有了第二种求解方式——梯度下降。

3 梯度下降

梯度下降是机器学习里的经典优化算法,通过以单个参数的偏导*学习速率α控制参数的迭代方向和速度,从而让参数(θ1和θ0)可以朝着所有参数下降速度最快的方向迭代,最终会到达一个局部最优点(在损失函数只考虑θ1和θ0的时候都是局部最优的),如下图所示,展示了单个参数优化的过程,偏导数部分对应下降的方向和大小,通过α可以控制下降的步长。

b9842b84409dc0ba2b67058d33c9c33b.png
网易云课堂《吴恩达机器学习》——梯度下降知识点总结

因为初始值选取的方式不同,所以会有两种情况,都可以达到向单个方向最消化损失函数的方向前进

4.正则化

正则化,英文regularization可能会比较好理解一些,大意就是用一些规则去约束从而达到“正”的目的。

正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识。 ——百度百科-正则化解决的问题之一

和百科定义类似,机器学习里的正则化是加入了一个而外的人工系数,从而“惩罚”参数θ,防止它们因为过大而出现过拟合的情况(例如多项式回归和多元回归)。

正则化在线性回归中的应用_《吴恩达机器学习》

00dba69630574818d9db060e7284d64b.png
正则化在线性回归中的应用_《吴恩达机器学习》

5b57ebee1c7ddf1f1834f26e29f393fb.png
正则化在逻辑回归中的应用_《吴恩达机器学习》

5.参考资料

  1. 正则化定义和作用(百度百科)
  2. 吴恩达机器学习
  3. 漫谈相关与回归——统计之都

下一篇:

相对静止:机器学习第2篇——模型评估与选择​zhuanlan.zhihu.com
9d1329f2720ed695641c73c7a013b9af.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值