线性回归(linear Regression)基本原理

一、概念解释

1.1线性(linear):

形为 ax+by+...+cz+d=0 ,关于x、y的线性方程,是指经过整理后能变形为 

ax+by+c=0的方程(其中a、b、c为已知数,a、b不同时为0)。一元线性方程是最简单的方程,其形式为ax=b。因为把一次方程坐标系中表示出来的图形是一条直线,故称其为线性方程。

1.2回归(Regression):

分为三种解释:

1.2.1“气温正在回归正常”

​中文字面意思上的理解,这里的含义是让数据回归到期待值。

1.2.2“身高回归”

就是所有人的平均身高。也就是随着一代一代的繁衍,孩子的平均身高会回归到所有人的平均身高的水平。

1.2.3“图像数据回归”

最靠谱的解释,合理的揭示了回归的含义——用观察使得认知接近真值的过程,回归本源,即分析自变量与因变量之间的关系。

1.2.4 补充

常见的统计问题分为分类问题与回归问题


二、案例

2.1 问题剖析:

 根据工资和年龄求额度:Y=\theta _{_{1}}X_{1}+\theta _{_{2}}X_{2}

2.2 各参数含义:

数据:工资和年龄,上面公式的X_{1} X_{2}

目标:贷款额度,上面公式的Y

参数:可以理解为权重,上面公式的\theta _{1}​和\theta _{2}


三、误差

3.1 引入

目标:找一个平面让尽可能多的数据落在平面上(因为线性问题无法连接所有的点)

拟合的平面为:h_{_{\theta }}\left ( x \right )=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}   其中,\theta _{0}为偏置项,\theta _{1}\theta _{2}权重项

整合:h_{_{\theta }}\left ( x \right )=\sum_{i=0}^{n}\theta _{i}x_{i}=\theta ^{T}x

 3.2 误差项定义

上述的公式中,y^{i}为真实值,\theta ^{T}x^{i}为预测值,\varepsilon^{^{\left ( i\right )}}为误差

3.3 数学概念引入——独立同分布

独立:数据样本之间无联系,数据1的出现不会影响数2,如果班级成员按照成绩排名,就会相互影

           响,即不独立。

同分布:数据尽来自于一个分布。

误差的高斯分布:理解为在均值附近时,误差较小,发生的概率较大;

                             远离均值时,误差较大,发生的概率较小。

上面的第三个式子意为求一个\theta,使得\thetax组合完接近于y^{\left ( i\right )},概率越大越好


3.4 似然函数与对数似然

似然函数:每组数据准确度相乘(独立同分布,P(AB)=P(A)P(B))。

对数似然:若有1000项相乘+计算量太大,因此引入对数似然,将乘法问题转变为加法问题。

                  将其化简,以e为底,得到y=a-bx的形式,x越小越好。

3.5 最小二乘法

解释:

公式1的解释:平方等于矩阵的转置乘以本身,同时平方项内调换位置不影响正负。

公式2的解释:线性代数中\left (A+B \right )^{T}=A^{T}+B^{TB} ,\left ( AB \right )^{T}=B^{T}A^{T}

                        若A为对称阵,对\theta ^{T}A\theta求微分为2A\theta

                        剩下的矩阵求导参考3.7节

3.6 数学概念引入——矩阵求导

无论是矩阵、向量对标量求导,或者是标量对矩阵、向量求导,其结论都是一样的:等价于对矩阵(向量)的每个分量求导,并且保持维数不变。

3.6.1 标量求导

3.6.2 向量求导

3.6.3 矩阵求导

与向量求导类似,先将矩阵化当做一个标量,再使用标量对矩阵的运算进行。例如,我们可以计算矩阵对列向量求导:

3.6.4 实值函数相对于实向量的梯度

3.6.5 常见性质

3.7 梯度下降

3.7.1 引入

目标:让loss function下降,举个例子为,从山顶走到山脚

采取措施:可以有很多不同的路,但对于当前来说,沿着该点的切线下山速度最快,即梯度下降。

具体步骤:1.先沿着梯度下降方向走 

                  2.走一步(步子大小不确定,即学习率,一口吃不成个胖子,通常较小,不容易跑偏)

                  3.按照方向与步伐更新我们的参数

\theta _{0}\theta _{1}的关系:参照上图,\theta _{0}\theta _{1}是相互独立的两个维度,因此参数计算是同时进行的,且两个参

                         数共同决定梯度下降的最快方向。(可以理解为\theta _{0}控制x轴方向上的最快下降方

                         向,\theta _{1}控制着y轴方向上的最快下降方向,两者的向量和决定了二维空间中的最快

                         梯度下降方向)

3.7.2 三种梯度下降的方式

公式1的备注:多除个m是为了求平均,满足多的点

公式(1)-->(2)的备注:h_{\theta }\left ( x^{i} \right )=\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{j}x_{j},而y^{i}不含\theta,理解为常数

公式2的备注:梯度的反方向才叫梯度下降,因为加上梯度的相反数。

                       \theta _{j}{}'即为更新后的参数

三种方式对比:

批量梯度下降(公式2):可以得到所有参数的最优解,但是计算量太大

随机梯度下降(公式3):不求和,不一定朝好的方向,不可控

小批量梯度下降(公式4):拿出一部分(min batch,常取2的几次幂)

                                             取的越大,越精确;取的越小,越粗糙

参考视频:机器学习入门到精通!不愧是公认的讲的最好的【机器学习全套教程】同济大佬12小时带你从入门到进阶(机器学习/线性代数/人工智能/Python)_哔哩哔哩_bilibili

参考文章:

统计学习的“回归”——各种回归(Regression)都是什么意思?(转)_incremental regression 统计-CSDN博客

矩阵求导法则与性质_矩阵求导运算法则-CSDN博客

  • 10
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值