数据挖掘:模型选择——线性回归

本文深入探讨了线性回归,从一元线性回归到多元线性回归,接着介绍了岭回归和Lasso回归,讨论了它们如何处理多重共线性问题。还提到了多项式回归用于非线性数据拟合,并概述了数据预处理的重要步骤,包括无量纲化、分类数据处理和缺失值处理。
摘要由CSDN通过智能技术生成

线性回归

一元线性回归

最早接触的线性回归是y=ax+b的形式,这是对于一元线性回归来说。我们给入数据,通过最小二乘法,让真实值和预测值的残差平方和(也就是要优化的损失函数)最小。可对系数求一阶导数,让其为0,求得未知的a,b,得到方程。
在这里插入图片描述

多元线性回归

而一般情况下,我们遇到的数据不是只有一个维度,而是多维数据,这时要用到多元线性回归。多元线性回归的公式为:
在这里插入图片描述
以上是一个数据对应的公式,如果在所有数据合在一起,则公式变为:
在这里插入图片描述
为了更加简洁,把上述公式改写为矩阵的格式。其中,X是我们的数据,w是需要求得参数,y^是预测的变量。
在这里插入图片描述
在一元回归的求解时,定义了预测值与实际值之间的残差平方和为损失函数,通过让该函数最小,得到了要求的系数。在多元回归中,进行同样的处理,得到如下公式。
在这里插入图片描述
所以,我们的目标就是找到一组w,使得损失函数最小。
在这里插入图片描述
这里有两种方式求解,一是梯度下降法,二是正规方程法。
1:梯度下降法
在一元线性回归中,通过求导,另其为0,得到答案。但是在数据量特别大的时候,这种方法会很慢,这时可以使用梯度下降法,来更加迅速的求得使损失函数最小化的参数。
梯度下降法:相当于我们下山的过程,每次我们要走一步下山,寻找最低的地方,那么最可靠的方法便是环顾四周,寻找能一步到达的最低点,持续该过程,最后得到的便是最低点。
对于函数而言,便是求得该函数对所有参数(变量)的偏导,每次更新这些参数,直到到达最低点为止,注意这些参数必须在每一轮一起更新,而不是一个一个更新
在这里插入图片描述
计算过程
定义的损失函数为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值