线性回归与正则化
线性回归总述
追根溯源,回归(Regression)这一概念最早由英国生物统计学家高尔顿和他的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出。他们的研究揭示了关于身高的一个有趣的遗传特性:若父母个子高,其子代身高高于平均值的概率很大,但一般不会比父母更高。即身高到一定程度后会往平均身高方向发生“回归”。这种效应被称为“趋中回归(Regression Toward the Mean)”。如今,我们做回归分析时所讨论的“回归”和这种趋中效应已经没有任何瓜葛了,它只是指源于高尔顿工作的那样一整套建立变量间数量关系模型的方法和程序,即用一个或多个自变量来预测因变量的数学方法。
回归分析之所以成为一种重要的统计模型,是因为它关注的是现象解释和预测,而不仅是描述层面的统计分析。在一个回归模型中,我们需要关注或预测的变量叫做因变量(响应变量或结果变量),我们选取的用来解释因变量变化的变量叫做自变量(解释变量或预测变量)。做回归分析,确定变量后我们还需要根据具体问题选择一个合适的回归模型,通俗地说就是把自变量映到因变量的函数的大体样子。常用的回归模型有线性回归,多项式回归,逻辑斯蒂回归等等。考虑到线性关系是自然界最普遍,最本质的数量关系,所以毋庸置疑线性回归是最简单实用的一类回归模型,也是其他回归模型研究的基础。本节我们主要讨论线性回归的相关理论及部分应用场景。
一元线性回归
让我们从最简单的一元线性回归说起。现有自变量 X ,因变量
其中 k,b 是模型参数, ε 为残差。面对一个具体问题,我们拿到样本点,即 X,Y 的观测值是 (x1,y1),...,(xn,yn) ,我们的目标是找到一条直线 y=kx+b 使得所有样本点尽可能落在它的附近。换句话说就是让 ε 在某种意义上极小化残差 ε .在高中我们就熟知这个问题的解法——求解使得 εi(i=1,2,...,n) 的平方和极小化的 k,b ,即
以上关于 (k,b) 的无约束二次优化问题,其解析解是容易得到的。这个方法叫做最小二乘法(Ordinary Least Square, OLS)。直观上,这个算法给出了描述 X,Y 两个变量线性关系的最优近似。
多元线性回归
多元线性回归本质也是一样,只是自变量和参数的个数变为 k 个。我们的目的仍是在最小二乘的意义下找到让残差平方和极小的参数。模型为
其中 Y=(y1,...,yn)T 为因变量,有 n 个观测值;