线性回归中“回归”的含义

最新推荐文章于 2024-07-09 21:50:49 发布

Laputa_ML

最新推荐文章于 2024-07-09 21:50:49 发布

阅读量1.5w

点赞数 25

今天我就简单谈谈自己的一些新想法。我们从最基本的容易引起歧义的地方出发。很多人问我，回归（regression）和拟合（fitting）有什么不同？其实如果你想从数学的角度去区分它们，你就出不来了。知识往往都有“先入为主”的那种影响。我们接触的第一类回归问题，就是简单线性回归，或者多项式回归，而这恰恰和我们接触的拟合问题“天然地相似”：最小二乘法求解参数。因此，那些数学出身的学生，就始终很难将这两类问题真正区分开。但是如果从历史发展的角度，结合更多实际问题来看，这个问题是很容易体会清楚的。

开始的时候，人们得到了很多组数据，这些数据之间貌似是有联系的，于是人们想要找到一种近似的函数关系，来对这些组变量的联系进行某种描述，进而获得某种解释。当然，人们十分清楚，如果这些数据都是精确无误的，那么经过这些点的插值函数就能较好地解决问题。但是现在，这些采集得到的数据可能是有误差的，或者是biased的，于是插值函数的准确性就反而要被质疑了。于是人们就想找一条不经过任何点，但是却能描述这些数据的基本规律的曲线。这就是拟合。拟合最初是由勒让德和高斯两位数学家在1804年和1809年提出的，那个时候，概率和统计和现在相比，简直还处于原始阶段，所以人们根本没有去仔细分析那些造成数据不准确的偏差到底有没有什么规律。人们的直觉，就是这条曲线和那些点的距离“越近越好”。于是，就有了“偏差的绝对值和最小”和“偏差的平方和最小”两种优化方法。但是为什么人们最终选择了后者，即现在熟知的“最小二乘原理”呢？说起来也很偶然。第一个原因是绝对值不容易计算，而平方和“光滑性”比较好，人们计算方便；另一个原因则更为深远，那就是“最小二乘”可以在向量的内积空间中得到一种非常漂亮的几何解释：正交投影。哈哈，一个技术上的原因，一个数学上的原因。一个是历史的局限性，一个是数学对概率统计的强大优势性，这些历史偶然，就使得“最小二乘原理”在很长一段时间独霸天下的局面。从此，拟合，诞生了！

但是人们很快就遇到了两个新问题：

第一，拟合曲线，单从它在已知点的逼近情况来看，也许可以比较好，但是，这条曲线，在那些未知点处真的可靠么？拟合和插值不一样，插值至少有泰勒展开这种数学理论支撑，所以人们非常清楚插值的可靠性，但是拟合，到目前为止，实在是缺乏数学理论的支撑。起初科学技术不是很发达，人们可能还观察不到自然界那些非常复杂的数据，采集到的数据的量也非常有限，于是对这些点的拟合看上去还没什么麻烦和问题。但是后来随着数据量的增大，人们逐渐发现，之前用拟合得到的结果变得“不靠谱”了。

第二，人们容易想到的回归曲线的形式， 无非就是直线，或者更复杂点的，那些初等函数，这些都是带参数的曲线，在形态上就不是那么灵活。但是，随着人们逐渐观察到更多形态复杂的数据的形式，寻找合适的参数曲线变成了一件非常头痛的事情，于是，拟合的实际操作，也越来越难了。

终于，到19实际末的时候，承受着各种困扰，经过了大半个世纪的挣扎，拟合似乎“山穷水尽”，人们已经看不到其前途和价值了。

然而19世纪末，一场全新的革命已经蓄势待发了！高尔顿的一篇谈论人的身高的文章，提出了“回归”这个名词：“那些高个子的后代的身高，有种回归到大众身高的趋势。”道尔顿自己绝不会想到，自己竟然为这个世界创造了两个新的概念：一个是回归，一个是regression towards the mean。19实际末的时候，古典概率理论已经比较成熟了，统计学的诞生的基础已经有了。那时，一个叫卡尔·皮尔逊的年轻数学家，做了很多生物上、农业上的试验，使用了很多数据分析的方法，从最初的对数据的描述，到对数据的绘图，再到后来，使用拟合来寻找两组变量的联系……这个叫皮尔逊的，就是现代统计学的鼻祖，也是第一次统计科学革命的领军人物。皮尔逊在1904来到伦敦大学学院（UCL），在他人生将尽的时候做了一件划时代的事情：建立了世界上第一个统计系。从此，统计，statistics，和数学独立了，成为了另一个极具生命力的学科。皮尔逊的儿子，继承了父业，也成为了一代统计学大师。到这个时候，人们已经开始学会使用随机变量，使用概率模型来描述数据背后的那些不确定现象了。这一观念上的进步，使得回归问题有了新的眉目。
人们开始对回归问题进行新的解释，开始假设那些随机误差是怎样怎样的分布，人们理所应当地选择了性质最好的那个分布函数：正态分布。如果假定这些误差都是期望为0、方差一定、彼此不干扰的，那么，这就是“高斯同方差性回归模型”，即“经典回归模型”的雏形。人们又回到了最初的那些简单问题，使用直线来逼近数据，这，就是linear regression model！

更加具有革命性的解释，是一旦使用概率模型来描述回归问题，我们想要寻找的那个近似函数，其实就是观测值变量对测量值变量的条件期望！如果使用“独立同分布高斯误差”（后来人们称之为“高斯白噪声”）这样的误差假设，那么观测值变量就服从正态分布，其中期望正是我们要找的函数。哈哈，回归问题，变成了一个推断问题：给定数据，估计期望。应该说从这一刻起，回归迎来了它的新生！

之后没有多少年，一个大名鼎鼎的人物问鼎统计学之巅：罗纳德·费希尔。这个后来成为剑桥大学的教授的人物，对统计学的贡献不胜枚举，单就“极大似然原理”就功不可没。极大似然原理，使得回归问题中的参数估计有了新的解决方案 。而且人们恍然大悟，原来最初使用的“最小二乘原理”，在“经典回归”中得到的对参数的估计，与“极大似然原理”得到的完全一致！不仅如此，对回归问题中误差的统计假设，使得人们意识到“最小二乘原理”仅仅在误差独立同分布时才有效，如果误差的方差变动，就应该使用一种“带权重的最小二乘”。此外，“极大似然原理”较“最小二乘”更为普遍，理论上对任何分布的随机变量都是有效的。这一点，成为推动回归模型迅速发展的重要原因。

统计学和统计推断的迅速发展，尤其是抽样分布定理的发现，点估计和区间估计的成熟，人们已经不再将回归视为一种“逼近”，而是将其视为一个“估计量”，开始从统计推断的观点看待这个估计量的无偏性、充分性、相合性等等问题，还开始做起了对回归系数的区间估计、零假设t检验，也开始对回归误差做起了F检验。这些，逐渐形成了回归的methodology和实际建模后的model diagnostic（模型诊断）。有了统计学的保证，回归模型的可靠度得到了相当大的提高。这一影响迄今依然非常显著， 我们经常被叮嘱：使用linear model建模之后，一定要检验残差的高斯型、平稳性、独立不相关性，还要看残差的平方和是否通过F检验。这些模型诊断，经常使得很多看上去拟合不错的模型被否定。模型诊断的出现，使得回归整整意义上具备了应用的价值。于是，紧接着，方差分析问世了，对那些非数值类型的自变量的回归，也出现了。linear model理论开始迅速成型，在其它科学中开始有了广泛的应用。那些经济学家们往往对自己的模型津津乐道，其实那都不过是一个简单的linear model。

也许讲到这里应该做一个插曲。费希尔这个人可以说是第一个将回归运用到极致的人。这似乎是必然，谁让他创立了“极大似然”。不过，费希尔是一个性格极其复杂的人，他也是第一个故意用回归模型来误导大众的人。有一家烟草公司，出钱请费希尔做一个统计研究，证明“吸烟对健康有利”。结果费希尔还真做到了！！这一历史事件，警告人们，回归模型，即使配备了较为良好的自我诊断能力，但是它仍有可能得到不正确的结果。从统计学的角度讲，就是severely biased！造成偏差的原因会有很多，比如抽样数据本身就是biased的，或者人们故意扔掉了很多数据，或者回归模型收到了outlier这种奇异值的影响。但是不管怎么说，人们开始对回归有了更多的思考，包括模型数值求解的稳定性、模型的鲁棒性等等。

这之后，回归迎来了一个大发展的时代。不知大家是否还记得前面提及的、回归在19世纪末遇到的两大难题。第一个，关于回归的理论支撑的问题，已经得到了较好的解决。但是第二个，关于回归模型中参数函数的选择问题，在这个时候变得更加棘手了。单纯的一个linear regression line，不足以描述自然界中那些非线性的变化趋势。于是，人们开始尝试多项式回归、正交多项式回归，还开始使用对数函数等对原始变量进行变换。

回归提供了一种寻找数据联系的手段，除了那些经济学家热衷于此，那些医学家们也不会无动于衷。医学家们使用回归模型来分析疫苗的抗菌效果。当然每每出现这种试验，小白鼠都是遭殃的。但是更让医学家头痛的，是回归模型的解释能力。医学家最关心小白鼠在接受疫苗并被感染后的死亡率，但是死亡率这一数值仅仅存在于0~1之间，如果使用回归模型，得到的是一条无界的直线。如果自变量稍有变动，比如疫苗的效用增强一倍，函数值，也就是死亡率，极有可能突破这个区间！但是实际上，真实的死亡率不过就是更接近0而已。这也就是说，linear model中“自变量的线性变化引发因变量的线性变化”，在研究死亡率时是不合理的。后来出现了一种logistic regression，解决了这一难题。而事实上，logistic regression仅仅是generalized linear model出现的一个前奏。在1930到1970年这40年间，人们找到了logistic regression，log-linear model，还有对survival data的cox proportional hazard model。这些模型的特点，具备了linear model中使用线性结构的特点，但是在分布函数假设上以及对条件期望的函数变换上都有所不同。终于，在1972年，Nelder提出了以一类exponential family为代表的generalized linear model，实现了对linear model的一次飞跃。

然而类似的飞跃还在不同的方向出现着，每一次飞跃都是因为linear model无法解决实际问题。如果说generalized linear model的出现，是为了解决restricted response variable（有界、离散、非数值的类别等）的回归问题，是高斯分布的假设不再适用于因变量，那nonparametric regression的出现则是因为参数模型受到了来自数据的挑战。

随着科学技术的进步，尤其是二战后期计算机的出现，数值计算能力得到了有效提高。二战后DNA为代表的微观生物学、航空航天、图像处理等领域都飞速发展，形成了第三次科技革命。这个时候，人类收到了来自爆炸性增长的数据的挑战……在信号处理中，信号传输的密集度之高，形成的数据的数量之大，对回归模型提出了非常大的挑战。这一次，对误差的高斯分布假设没有问题，但是那些海量的数据，分布如此密集，形状如此奇特，想要找到某种类型的参数函数来进行去噪回归，实在是不可能。于是，在1960年左右，nonparametric regression出现了，它不假定任何具体的函数形式，而是选择一种基本的“局部构造法”，比如moving average（移动平均）、kernel estimation（核估计）、local regression line（局部线性回归）等等，然后let the data tell us what the function looks like！这一手段非常吸引人，因为完备的理论保证了这种估计的无偏性、一致性和相合性！如果使用cross validation来选择邻域的大小，得到的函数对数据的逼近非常令人满意。

但是后来人们发现，这种基于local neighborhood的估计方法，只能解决那种“密集、大量”类型的数据，因为估计的无偏性，只有在局部邻域中的点很多时才能得到保障。这也在客观上限制了kernel estimation的使用。虽然它有比linear model更好的理论逼近效果，但是实际问题中的数据并非总能达到要求。如果时间观测数据非常稀疏，那么使用kernel estimation，每个点在小邻域内找不到自己之外的其它点，那么kernel estimation得到的几乎就是插值函数！这可糟糕透顶了！很多人，包括我，在学习了nonparametric regression之后，都对这种看似非常灵活、完美的回归手段非常赞叹，很纳闷为什么很多case study反而不用kernel来做，偏要用参数回归去做。今天才想明白。与参数回归相比，kernel estimation对data的胃口非常大，如果你提供不了足够数量的data，kernel也是“巧妇难为无米之炊”啊！

那时地理学界也开始使用回归模型了。但是地理问题是一个大尺度问题，而且还是一个3维问题，这两个问题都造成了数据的sparsity（稀疏性），所以kernel方法没法成功。要解决这个问题，人们需要解决两个问题：

第一，对于较为稀疏的数据的非参数回归如何进行；

第二，高维问题如何解决。

spline regression，使得第一个问题得到了较好的解决。1963年，德国慕尼黑工业大学的教授证明了penalized least square的解唯一，并且是一个3次样条函数。于是，smoothing spline，成为了回归领域一颗闪亮的星星。penalized least square的聪明之处，在于不事先假定这个函数究竟是什么形式（只知道二阶光滑）。如果只使用least square，得到的无疑是插值函数，但是如果对这个函数的smoothness光滑度，即二阶导函数的积分，进行一个“惩罚”，那么penalized least square就会自动返回一个3次样条函数。函数的光滑度是由“惩罚系数”限定的，如果不惩罚，那就是插值函数，如果惩罚系数无穷大，得到的就是回归直线。这种聪明的设计，真的令人赞叹不已！紧接着，在1984年，Bristol大学的Green，Silverman，分别在iterative weighted least squares和equivalent kernel上取得突破，使得smoothing spline有了新的发展。同时，美国和加拿大的几位数学家，也证明了smoothing spline的很多性质。样条回归，在地里、气象问题中的应用极为广泛。

1981年，美国数学家弗里德曼提出了投影追踪模型，向高维的非参数回归发起了进攻。投影追踪模型，导出了一种特殊模型，即additive model，成为解决高维回归问题的利器。紧接着，在1984-1989年之间，Hastie和Tibshirani两人在博士毕业论文中提出了generalized additive models，将generalized linear models和additive models的理论结合在一起，将非参数回归推向了一个新的高峰。

回归理论的发展还远远不止于此。

1991年，针对约束条件少于参数数量的问题，LASSO方法问世了。这又是一类penalized least squares问题。

1992年，法国女数学家Daubches的《小波十讲》问世，小波方法迅速走进非参数回归和时间序列分析当中。

1996年，早年从复旦大学走出国门的范剑青，在美国提出了局部多项式回归。这一回归理论，借鉴了regression splines，比如P-splines，B-splines的思想，使用多项式函数作为基函数，取得了很好的回归效果。

2001年，Bristol大学的Arne Kovac，以及德国艾森大学的David，提出了Taut string regression。这一回归借鉴了smoothing spline使用penalized least square的特点，将对smoothness的penalty term更换为对全变差的penalty，从而得到了一种逐段常值函数的回归函数。这种函数虽然看上去并不光滑，但是对于函数极值有着非常好的数量控制，能有效避免过拟合（overfitting），在图像和信号处理中是一种去噪的利器。

蒙特卡洛和贝叶斯，因为为统计推断提供了新的方法，当然也为回归模型提供了新的求解思路。事实上，一类叫做Bayesian Hierarchical Model的系统，使得回归模型对于tied values和小样本数据问题，都有了好的解决对策。

…………

至此，我们一起完成了一段对回归分析的探索旅程。但我们看到的依然只是冰山一角。但是，即使是这种走马观花的旅行，也希望能为理解回归提供一种线索。当然，这也是我个人对回归的一种新的体会。作为我MRes学习的有一个阶段总结吧。回归，是我的PhD研究方向，也是我硕士学位论文的课题，更是我一直以来感兴趣的领域。通过MRes这种知识密集度很高的训练，我还无法立刻消化这些知识，有时也会走进理解上的误区。我个人也希望，以后自己能通过更多的case study，来亲自动手试验那些学过的模型究竟会有什么效果。正如我的保加利亚PhD朋友Delyan说的那样：You are a statistician!