线性回归与正则化

本文详细介绍了线性回归的概念、一元与多元线性回归、最小二乘法的合理性,以及岭回归和LASSO正则化方法。线性回归在统计学中扮演重要角色,通过最小二乘法找到最佳拟合直线。正则化通过岭回归和LASSO防止过拟合,LASSO还能进行特征选择。在R语言中,可以使用lm()、lm.ridge()和lars()函数进行线性回归分析。
摘要由CSDN通过智能技术生成

线性回归与正则化

线性回归总述

追根溯源,回归(Regression)这一概念最早由英国生物统计学家高尔顿和他的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出。他们的研究揭示了关于身高的一个有趣的遗传特性:若父母个子高,其子代身高高于平均值的概率很大,但一般不会比父母更高。即身高到一定程度后会往平均身高方向发生“回归”。这种效应被称为“趋中回归(Regression Toward the Mean)”。如今,我们做回归分析时所讨论的“回归”和这种趋中效应已经没有任何瓜葛了,它只是指源于高尔顿工作的那样一整套建立变量间数量关系模型的方法和程序,即用一个或多个自变量来预测因变量的数学方法。

回归分析之所以成为一种重要的统计模型,是因为它关注的是现象解释和预测,而不仅是描述层面的统计分析。在一个回归模型中,我们需要关注或预测的变量叫做因变量(响应变量或结果变量),我们选取的用来解释因变量变化的变量叫做自变量(解释变量或预测变量)。做回归分析,确定变量后我们还需要根据具体问题选择一个合适的回归模型,通俗地说就是把自变量映到因变量的函数的大体样子。常用的回归模型有线性回归,多项式回归,逻辑斯蒂回归等等。考虑到线性关系是自然界最普遍,最本质的数量关系,所以毋庸置疑线性回归是最简单实用的一类回归模型,也是其他回归模型研究的基础。本节我们主要讨论线性回归的相关理论及部分应用场景。

一元线性回归

让我们从最简单的一元线性回归说起。现有自变量 X ,因变量 Y ,模型为

Y=kX+b+ε

其中 k,b 是模型参数, ε 为残差。面对一个具体问题,我们拿到样本点,即 X,Y 的观测值是 (x1,y1),...,(xn,yn) ,我们的目标是找到一条直线 y=kx+b 使得所有样本点尽可能落在它的附近。换句话说就是让 ε 在某种意义上极小化残差 ε .在高中我们就熟知这个问题的解法——求解使得 εi(i=1,2,...,n) 的平方和极小化的 k,b ,即
(k,b)=argmink,bi=1n(yikxib)2

以上关于 (k,b) 的无约束二次优化问题,其解析解是容易得到的。这个方法叫做最小二乘法(Ordinary Least Square, OLS)。直观上,这个算法给出了描述 X,Y 两个变量线性关系的最优近似。

多元线性回归

多元线性回归本质也是一样,只是自变量和参数的个数变为 k 个。我们的目的仍是在最小二乘的意义下找到让残差平方和极小的参数。模型为

Y=Xβ+ε

其中 Y=(y1,...,yn)T 为因变量,有 n 个观测值; X=(xij)n×k n×k 矩阵,其 k 个列分别表示 k
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值