本章目录:
====================================================
7.1 Introduction
线性回归是统计和机器学习领域最基本的模型,其实在科研领域,经典的模型是用的最多的模型。线性模型就是一种经典的模型。
====================================================
7.2 模型设定<Model Specification>
图7.1就很好的展示了在不同基函数的表示下,线性回归的结果。
basis function expansion<BFE>基函数展开,
比如下图:BFE就分别是[1 x],[1 sin(x)]。
为什么出现了x^2等项仍然称作线性的?这里线性是考虑对系数w各分量的线性性。
====================================================
7.3 Maximum likelihood estimation (least squares)
在统计中,给定了数据的概率模型(线性回归中是高斯模型)),估计参数(线性回归中是系数w)常用的方法有“最大似然估计”。并由此推出高斯模型假设的前提下,“最大似然估计”与“最小二乘”是等价的。
7.3.1 最大似然估计推导<Derivation of the MLE>
以下推导,注意X,w的“格式",便很简单了。注意在处理“向量”时,标准都是列向量,如果某本书是一行向量的形式出现,只能说:扔了吧。
详细推导:
7.3.2 几何解释<Geometric interpretation>
求出w之后,y_hat = w'x的几何意义是,y_hat是“y在X各列所张成空间上的投影点”。
7.3.3 凸性Convexity
只有函数是凸函数,才能保证“局部极小点一定是全局极小点”。
在高等数学中,对于连续可导函数鞍点<一阶导数=0>并不一定是极小点;
在优化课程(最优化,运筹学,优化方法等课程)中,一般都是假设函数是凸的,然后进行优化的研究与讨论。
另外建议学习机器学习的同学,找本优化方面的书看看,看看:线性规划、无约束优化、约束优化问题就可以了。
其中在ML中使用较多的是无约束优化,像什么牛顿法,梯度法,BFGS等均属于无约束优化问题的求解方法;
关于正则项的约束问题可以看做“约束优化问题”中的罚函数法或者拉格朗日乘子法。
====================================================
7.4 健壮的线性回归<Robust linear regression>
<“robust-鲁棒”的译法属于音译,也较为常用>
这一节可以看做:最小二乘法cost function中使用的欧式距离(yi-yi_hat)^2做出修改,来提高鲁棒性,或者说选择不同的距离<对于不同距离,近期会汇总写篇blog>来定义cost function。
高斯模型下:离群点(outlier)到期望的距离的平方很大,从而会对参数的估计造成很大影响,而且是坏的影响。选择不同的距离计算方式来缓解这种误差。heavy tails意味着在使用最大似然估计时离群点处的 p 也不至于太小。
====================================================
7.5 岭回归<Ridge regression>
当数据存在噪声或模型太过复杂的时候,会产生过拟合现象。
看上图,蓝色线是模型求解的结果,显然粉色线是一个更好的模拟。
在数学学科的<数值逼近>课程上,把由于使用高次多项式拟合数据而产生的震荡现象,叫做:龙格库塔现象。
为了解决这个问题,可以加入正则项/约束项,以下讨论建立在高斯模型上(MLE可以化简成最小二乘形式):
如下图所示:加入正则项后,lambda越大,拟合出来的函数缺陷越“光滑”
多数情况下,加入正则项是处理过拟合(overfiting)的有效方法。
加入正则项的一个缺点就是,可能导致某个非常重要的feature(系数wi应该较大)被抑制——最终的wi较小。
====================================================
7.6 贝叶斯线性回归<Bayesian linear regression>
以后补充。