回归的误差服从正态分布吗_【算法原理】线性回归算法原理

本文介绍了线性回归算法的原理,通过逐步调整预测方程以尽可能拟合样本点。讨论了误差项的独立性、同分布假设,并且假定误差项服从均值为0、方差为σ²的正态分布。利用最小二乘法求解最优参数,最终建立了线性回归方程。此外,提到了线性回归在实际应用中的 sklearn 实现。
摘要由CSDN通过智能技术生成

18b9d82c34bdb92d86093b9906993162.png
假设小明是银行的一名客户研究员,他想利用银行客户的年龄(X1)与工资(X2)建立一个预测模型,预测不同客户存款数额(Y)的大小。
目前他手头已经有银行客户的历史数据表:X1列记录客户年龄、X2列记录客户工资、Y列记录客户年龄。

最开始,他建立了最简单的预测方程:

39fd646208942b150b44117d04f3c8d3.png
小明知道不同变量所占的权重是不一样的,方程中变量前的参数就代表权重

然后,他用手头的数据去训练该方程,发现该方程并不是能够拟合最多样本点的方程,于是他需要对方程进行上下微调,让方程线尽量通过更多的样本点:

36472ec5fbaca1b8d98d49d9e16b4964.png
多加的截距项就是起到微调的作用,但重点还是在变量参数上

但是,他发现不管怎么微调方程,总有些样本点的预测值与真实值Y存在差异,所以需要在方程中体现出该差异才科学:

33476fb77e21c20dbd6559a8d2df54b3.png
预测方程中加入了误差项,真实值=预测值+误差

因为银行的数据都是数据表,相当于数学中的矩阵,为了方便计算,小明又在数据表中加入了一列值全部为1的X0列,相应的,方程规范为:

e58283c810cd1ae73b19fa7ac6d78c40.png
这样方程就可以方便的放入矩阵计算了
现在,较为标准科学的预测方程建好了,现在最关键的就是搞清X1,X2是如何影响Y的?影响程度如何?也就是要求变量的参数(正负和大小)
那该如何求变量的参数呢?

小明通过查资料发现,误差项可以作为突破点:

对于误差项的假设是:

  1. 独立:每个人来银行存款都是互不影响的,一个人不会因为他前面的人存款多,他就想着存少一点。
  2. 同分布:小明进行客户调研肯定是以自己银行的客户为样本,样本中不会有其他银行的客户信息。
  3. 服从均值是0,方差为西格玛方的高斯分布(正态分布):日常生活都是平衡稳定的。

既然误差项服从上述正态分布,那么它的概率密度函数就是:

6a2903d3664cb9777e83e0a18e9e4a7b.png
1式

又因为误差项可以表示为:

4dfb56233f53b6e1f2a71b17aec6e909.png
2式

所以将2式带入1式,等到关于Y、X、和参数的方程:

6b200a813fac4ddd918af75c8eec80cc.png
小明只要通过上式求出参数就好了,可是该如何求呢?
小明知道研究客户不能只研究一个,而是要研究许多的客户,每个客户都有求出其边缘概率密度函数。
又因为误差项是独立同分布的,所以联合概率密度函数=边缘概率密度函数之积。
这样,就自然而然地构造出了极大似然函数

7424d4c8b7f383f8de174bc2fef39e24.png

极大似然函数可以理解为:求解当参数为多少时,预测值接近真实值的概率最大

对极大似然函数去ln对数化简,得到:

c11bcc7d8163e719e0c58ee414189742.png

要求最大概率,需要对下式求最小值,使用的就是最小二乘法:

35a9c6d7d5147b2c283926e2a8a11bf1.png

通过最小二乘法的计算(计算交给电脑就好),小明终于求出了各个参数,完成了预测方程(线性回归方程)的建立。


线性回归算法的sklearn实现模版:

from sklearn.linear_model import LinearRegression
lm = LinearRegression(fit_intercept=True)  # fit_intercrpt意为计算截距项
lm.fit(x_train, y_train)
lm.intercept_  # 显示截距项
lm.coef_  # 显示所得系数

41eab0c193b9b24b975c4cf4f91541e1.png

未经允许,严禁转载!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值