【机器学习】线性回归（基于学习的方式）所用到的公式

最新推荐文章于 2024-03-16 22:41:09 发布

Icanhearwawawa

最新推荐文章于 2024-03-16 22:41:09 发布

阅读量1.1k

点赞数

文章标签：机器学习线性回归算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Icanhearwawawa/article/details/122754078

版权

线性回归

个人观点：我这里所说的线性回归不完全等同于数学上严格的线性回归，这里的线性回归更偏向于利用学习的手段进行回归。

1. 数据预处理

这个数据的预处理不仅仅用在线性回归模型上，也是其他机器学习乃至深度学习中常用的方法，其最重要的步骤是对数据进行normalization。

设输入的原始数据是 $X_0$ ,经处理后的数据为 $X$ ,则数据预处理的过程可以看作
$\frac{X_0 - \mu}{\sigma}$

2. 误差项

我们可以认为真实值 $Y$ 是预测模型 $Linear_\theta$ 对预处理数据 $X$ 的预测结果 $Linear_\theta(X)$ 与误差 $\epsilon$ 的和，即
$Linear_\theta(X) + \epsilon$
而
$Linear_\theta(X) = \sum\theta_iX_i + b$
一般情况下我们认为误差 $\epsilon$ 在数据间是独立同分布的，并且应该服从正态分布 $N(0,\sigma^2)$ 。所以正常情况下，为了避免因为数据本身的顺序对结果产生影响，使得数据之间保持独立性，往往在训练过程中要对数据进行随机打乱操作。
很容易的能够写出：

$P(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} exp(\frac{-\epsilon^{(i)2}}{2\sigma^2})$

我们为了求解参数 $\theta$ ,所以将上面公式变形为

$P(y|x;\theta) = \frac{1}{\sqrt{2\pi}\sigma} exp(\frac{-(y - Linear_\theta(X))^{2}}{2\sigma^2})$

由于这是一个基于学习的方法，所以需要每个数据尽可能适配这个模型，对于这里的每条数据，由于数据间是独立同分布的，那么这个模型的似然函数可以写成

$L(\theta) = \Pi (P(y^{(i)}|x^{(i)};\theta))$

由于概率是小于1的数，并且样本数目过多，采用累乘的形式的目标函数会趋近于零，可能导致梯度消失，但是理论上来讲，似然函数和对数似然函数的单调性一样，所以这个地方我们可以采用对数似然函数作为目标函数

$L(\theta) = \frac{n}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2}\sum {(y^{(i)} - Linear_\theta(x^{(i)})})^2$

在线性回归任务中，我们希望似然函数越大越好，也就是对数似然函数越大越好，也就是使 $J(\theta)=\sum {(y^{(i)} - Linear_\theta(x^{(i)})})^2$ 越小越好，因此我们可以使用 $J(\theta)$ 作为目标函数进行优化。

利用学习的方法可以避免使用数学严格意义上的线性回归方法（ $\theta =(X^TX)^{-1}X^TY$ ）的矩阵不可逆的问题，当然也可以采用正则化的方式来避免不可逆的问题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。