线性回归（linear Regression）基本原理

最新推荐文章于 2024-08-08 20:45:00 发布

Wendra

最新推荐文章于 2024-08-08 20:45:00 发布

阅读量826

点赞数 10

文章标签：线性回归机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A2207519603/article/details/140681373

版权

一、概念解释

1.1线性（linear）：

形为 ax+by+...+cz+d=0 ，关于x、y的线性方程，是指经过整理后能变形为

ax+by+c=0的方程（其中a、b、c为已知数，a、b不同时为0）。一元线性方程是最简单的方程，其形式为ax=b。因为把一次方程在坐标系中表示出来的图形是一条直线，故称其为线性方程。

1.2回归（Regression）：

分为三种解释：

1.2.1“气温正在回归正常”

中文字面意思上的理解，这里的含义是让数据回归到期待值。

1.2.2“身高回归”

就是所有人的平均身高。也就是随着一代一代的繁衍，孩子的平均身高会回归到所有人的平均身高的水平。

1.2.3“图像数据回归”

最靠谱的解释，合理的揭示了回归的含义——用观察使得认知接近真值的过程，回归本源，即分析自变量与因变量之间的关系。

1.2.4 补充

常见的统计问题分为分类问题与回归问题

二、案例

2.1 问题剖析：

根据工资和年龄求额度： $Y=\theta _{_{1}}X_{1}+\theta _{_{2}}X_{2}$

2.2 各参数含义：

数据：工资和年龄，上面公式的 $X_{1} X_{2}$

目标：贷款额度，上面公式的 $Y$

参数：可以理解为权重，上面公式的 $\theta _{1}$ 和 $\theta _{2}$

三、误差

3.1 引入

目标：找一个平面让尽可能多的数据落在平面上（因为线性问题无法连接所有的点）

拟合的平面为： $h_{_{\theta }}\left ( x \right )=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}$ 其中， $\theta _{0}$ 为偏置项， $\theta _{1}$ ， $\theta _{2}$ 权重项

整合： $h_{_{\theta }}\left ( x \right )=\sum_{i=0}^{n}\theta _{i}x_{i}=\theta ^{T}x$

3.2 误差项定义

上述的公式中， $y^{i}$ 为真实值， $\theta ^{T}x^{i}$ 为预测值， $\varepsilon^{^{\left ( i\right )}}$ 为误差

3.3 数学概念引入——独立同分布

独立：数据样本之间无联系，数据1的出现不会影响数2，如果班级成员按照成绩排名，就会相互影

响，即不独立。

同分布：数据尽来自于一个分布。

误差的高斯分布：理解为在均值附近时，误差较小，发生的概率较大；

远离均值时，误差较大，发生的概率较小。

上面的第三个式子意为求一个 $\theta$ ，使得 $\theta$ 与 $x$ 组合完接近于 $y^{\left ( i\right )}$ ，概率越大越好

3.4 似然函数与对数似然

似然函数：每组数据准确度相乘（独立同分布，P(AB)=P(A)P(B)）。

对数似然：若有1000项相乘+计算量太大，因此引入对数似然，将乘法问题转变为加法问题。

将其化简，以e为底，得到 $y=a-bx$ 的形式，x越小越好。

3.5 最小二乘法

解释：

公式1的解释：平方等于矩阵的转置乘以本身，同时平方项内调换位置不影响正负。

公式2的解释：线性代数中 $\left (A+B \right )^{T}=A^{T}+B^{TB} ,\left ( AB \right )^{T}=B^{T}A^{T}$ ；

若A为对称阵，对 $\theta ^{T}A\theta$ 求微分为 $2A\theta$ ；

剩下的矩阵求导参考3.7节

3.6 数学概念引入——矩阵求导

无论是矩阵、向量对标量求导，或者是标量对矩阵、向量求导，其结论都是一样的：等价于对矩阵（向量）的每个分量求导，并且保持维数不变。

3.6.1 标量求导

3.6.2 向量求导

3.6.3 矩阵求导

与向量求导类似，先将矩阵化当做一个标量，再使用标量对矩阵的运算进行。例如，我们可以计算矩阵对列向量求导：

3.6.4 实值函数相对于实向量的梯度

3.6.5 常见性质

3.7 梯度下降

3.7.1 引入

目标：让loss function下降，举个例子为，从山顶走到山脚

采取措施：可以有很多不同的路，但对于当前来说，沿着该点的切线下山速度最快，即梯度下降。

具体步骤：1.先沿着梯度下降方向走

2.走一步（步子大小不确定，即学习率，一口吃不成个胖子，通常较小，不容易跑偏）

3.按照方向与步伐更新我们的参数

$\theta _{0}$ 与 $\theta _{1}$ 的关系：参照上图， $\theta _{0}$ 与 $\theta _{1}$ 是相互独立的两个维度，因此参数计算是同时进行的，且两个参

数共同决定梯度下降的最快方向。（可以理解为 $\theta _{0}$ 控制x轴方向上的最快下降方

向， $\theta _{1}$ 控制着y轴方向上的最快下降方向，两者的向量和决定了二维空间中的最快

梯度下降方向）

3.7.2 三种梯度下降的方式

公式1的备注：多除个m是为了求平均，满足多的点

公式（1)-->(2)的备注： $h_{\theta }\left ( x^{i} \right )=\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{j}x_{j}$ ，而 $y^{i}$ 不含 $\theta$ ，理解为常数

公式2的备注：梯度的反方向才叫梯度下降，因为加上梯度的相反数。

$\theta _{j}{}'$ 即为更新后的参数

三种方式对比：

批量梯度下降（公式2）：可以得到所有参数的最优解，但是计算量太大

随机梯度下降（公式3）：不求和，不一定朝好的方向，不可控

小批量梯度下降（公式4）：拿出一部分（min batch，常取2的几次幂）

取的越大，越精确；取的越小，越粗糙

参考视频：机器学习入门到精通！不愧是公认的讲的最好的【机器学习全套教程】同济大佬12小时带你从入门到进阶（机器学习/线性代数/人工智能/Python）_哔哩哔哩_bilibili

参考文章：

统计学习的“回归”——各种回归（Regression）都是什么意思？（转）_incremental regression 统计-CSDN博客

矩阵求导法则与性质_矩阵求导运算法则-CSDN博客

关注

10
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
线性回归（linear Regression）基本原理

本文简单介绍了线性回归模型的数学理论基础
复制链接

扫一扫

Wendra CSDN认证博客专家 CSDN认证企业博客

码龄2年

1: 原创

143万+: 周排名

22万+: 总排名

826: 访问

: 等级

20: 积分

8: 粉丝

10: 获赞

0: 评论

16: 收藏

私信

关注

热门文章

线性回归（linear Regression）基本原理 826

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。