线性回归(Linear Regression)

回归任务旨在揭示特征与目标间的数学关系,通常采用线性模型。一元线性回归有一维特征,而多元线性回归涉及多个特征。参数估计通过最小化残差平方和来优化模型,确保损失函数的凸性。线性回归模型的适用性和参数估计涉及到矩阵正定性、特征值及其与样本线性相关性的关系。
摘要由CSDN通过智能技术生成

引言

说到底,回归任务都是寻找特征x与目标y之间的关系,我们认为每一个特征或多或少,或积极或消极地对目标产生着影响,我们期望寻找数学表达式来表达出这种影响。

一、回归模型

想象一下描述特征x与目标y之间最简单明了的关系是什么?

当然是线性关系了;每个特征占一个权重比例,影响着目标的表达。

1.1模型表达式

于是,我们构造Y=\beta_{0}+\beta_{1}x_1+...+\beta_{t}x_t+\varepsilon的模型表达式

其中x=(x_1,x_2,...,x_t)是输入的t维度特征向量,被称为自变量(independent variables);Y是我们所寻求的目标(target)。

\beta_{0}被称为截距(intercept);\beta_{1},\beta_{2},...,\beta_{t}被称为斜率参数(slope coefficients);\varepsilon是误差项(error term),与模型无关,服从于正态分布N(0,\sigma ^{2})

很形象的是,线性模型服从LINE准则,即

Linearity)线性 – 目标和自变量之间的关系是线性的

Independence)独立性 – 误差项相互独立

Normality)正态性 – 误差项服从正态分布

Equal variance)方差相等 – 误差项同方差

1.2一元线性回归

一元线性回归(Simple Linear Regression)顾名思义,自变量只有一个特征,是一维的,其表达式Y=\beta_{0}+\beta_{1}x_1+\varepsilon

对于二维坐标系而言,一元线性回归可视化就容易明朗的多。

点是实际值y,对应直线为模型的预测值\widehat{y},可以看到两者之间总是有一些距离的,是随机误差作用的结果。

二、参数估计

好了,模型已经有了,我们该如何确定斜率参数与截距项呢?

以一元线性回归为例,我们当然希望我们的预测与实际越接近越好,于是我们用损失\widehat{y}-y来衡量预测偏离实际的程度;

然而这种偏差时正时负,会相互抵消,于是我们用损失的平方之和来评判模型是否能很好的预测给定的数据:

L=\sum_{i=1}^{n}(\widehat{y}-y)^{2}

我们称上式为残差平方和(residual sum of squares ,RSS),我们希望通过改变\beta_{0},\beta_{1}使得这个损失最小,于是\beta_{0},\beta_{1}就是模型待估计的参数(coefficients)。

\widehat{\beta_{0}},\widehat{\beta_{1}}=\underset{\beta_0,\beta_1}{arg \\min}\sum_{i=1}^{n}(\widehat{y}-y)^{2}

\beta_1=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^{n}(x_i-\overline{x})^2}

\beta_0=\overline{y}-\widehat{\beta_1}\overline{x}

其中\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i是样本均值,\overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_i是目标均值,\widehat{\beta_{0}},\widehat{\beta_{1}}是我们估计的参数

值得注意的一点是,一元线性回归是存在最优解的;

我们计算其损失的Hessian 矩阵

H=\begin{bmatrix} \frac{\partial^2L}{\partial w^2} & \frac{\partial^2L}{\partial b\partial w} \\ \frac{\partial^2L}{\partial w\partial b} & \frac{\partial^2L}{\partial b^2} \end{bmatrix} =\begin{bmatrix} 2\sum _{i=1}^{n}x_{i}^{2} & 2\sum _{i=1}^{n}x_{i}\\ 2\sum _{i=1}^{n}x_{i}& 2n \end{bmatrix}

讨论矩阵H的特征值,相当于讨论矩阵A=\begin{bmatrix}\sum _{i=1}^{n}x_{i}^{2} &\sum _{i=1}^{n}x_{i}\\ \sum _{i=1}^{n}x_{i}& n \end{bmatrix}的特征值

|\lambda I-A|=\begin{bmatrix}\lambda -\sum _{i=1}^{n}x_{i}^{2} &-\sum _{i=1}^{n}x_{i}\\ -\sum _{i=1}^{n}x_{i}& \lambda -n \end{bmatrix}

=\lambda^2-(n+\sum _{i=1}^n {x_i}^2)\lambda +n\sum_{i=1}^n {x_i}^2-\sum_{i=1}^n {x_i}\cdot \sum_{i=1}^n {x_i}=0

讨论n\sum_{i=1}^n {x_i}^2-\sum_{i=1}^n {x_i}\cdot \sum_{i=1}^n {x_i}=0项,经数学推导发现他恒非负

所以|\lambda I-A|的两个根其中一个大于0,另一个大于等于0(当

n\sum_{i=1}^n {x_i}^2-\sum_{i=1}^n {x_i}\cdot \sum_{i=1}^n {x_i}=0时该特征根为0)。
由此得知矩阵A正定或者半正定,于是又矩阵H正定半正定可见损失函数是凸函数(凸优化看这一篇

凸优化(Quasi convex optimization)与梯度下降(Grad descent)https://blog.csdn.net/a2333333_/article/details/130614781?spm=1001.2014.3001.5501),必定存在极值点。

三、多元线性回归

3.1多元线性回归表达式

上述的表达式y=\beta_{0}+\beta_{1}x_1+...+\beta_{t}x_t+\varepsilon便是多元线性回归(Multiple Linear Regression),它和一元的不同在于,特征多了起来。

对于这一串表达式,我们用简介的矩阵乘法来表示

Y=\begin{bmatrix} y_1\\ y_2 \\ ... \\ y_t \end{bmatrix} ,X=\begin{bmatrix} 1 &x_{11} & ... &x_{n1} \\ 1&x_{21} & ...&x_{n2} \\ ...& ...& ... & ...\\ 1& x_{t1} ...& x_{nt} & \end{bmatrix}, \beta=\begin{bmatrix} \beta_1\\ \beta_2 \\... \\ \beta_t \end{bmatrix}, \varepsilon = \begin{bmatrix} \varepsilon_1\\ \varepsilon_2 \\ ... \\ \varepsilon_t \end{bmatrix}

于是有Y=X\beta+\varepsilon ,RSS=(\widehat{y}-y)^{2}=(y-X\beta)^T(y-X\beta)

3.2参数估计

其中\beta=\begin{bmatrix} \beta_1\\ \beta_2 \\... \\ \beta_t \end{bmatrix}是待估计参数;

扩展上文所提到的,一元线性回归是凸优化问题,多元线性回归同样是凸优化问题,其损失函数是严格的凸函数,一定在区间内存在最优值,于是有

\widehat{\beta}=\underset{\beta}{arg \\min}(y-X\beta)^2=(X^TX)^{-1}X^TY

这便要求X^TX是可逆的,这便涉及到高等代数线性空间的理论了。

X^TX可逆,即仅存在0向量x=\begin{bmatrix} 0\\ 0 \\ ... \\ 0 \end{bmatrix}使得X^TXx=0,而XX^TX有着相同的零空间,于是要求X列满秩,即样本之间线性无关。

X^TX不可逆,也就是X不满足列满秩了,此时输入的多个样本之间线性相关了,即至少存在一个样本可以被其他样本的线性组合所表示,这时候称自变量存在完全多重共线性(perfect multicollinearity)。此时需要去掉那些由其他变量线性组合而成的变量,或者收集更多的特征使样本间不存在线性关系

X^TX可逆,但是有样本几乎可以被其他样本所线性表示了,此时称当变量间存在准多重共线性(near multicollinearity)。此时可以通过降维来解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值