回归模型分为线性回归模型和非线性回归模型。
这里讨论线性回归模型,这一模型参数化之后为:
d=w转置x+e
其中d称为期望响应,x称为回归量,w称为参数向量,e称为期望误差,w的维数与回归量x的共同维数称为模型阶。
注:线性回归模型如图p42
对线性回归参数向量选择的过程进行量化,进而得到4个密度函数。
1、观测密度,给定参数向量w,由回归量x对环境响应d的“观测”。
2、先验,先验于环境观测量的参数向量w的信息。
3、后验密度,对环境的观测完成之后的参数向量w。
4、证据,响应d中的信息。
对于这4个密度函数可以得到以下结论:
观测密度(即似然函数)与先验之间的积与后验密度成正比。
对于高斯环境下的参数估计,(假设统计独立于同分布,假设高斯性,假设稳定性):
计算最大后验密度函数进行化简后等价于最小化二次函数(即正则最小二乘解)
而对于最大后验密度又称为正则线性回归,对于最大似然函数又称为非正则线性回归。
对于这两者,通过引入正则化来提高最大似然估计稳定性,但是最大后验估计则是有偏的。这是一个需要作出权衡的点。
又对于模型阶选择时,采用最小描述长度准则,该方法收敛于真的模型阶。
在此,最小二乘法和最大似然估计的局限性:
他们依赖于训练样本,故在通过训练样本进行训练时,通过实际输出“逼近”期望响应的方法寻找最优的模型参数。在此过程中,注意由于“偏置-方差困境”的存在有一个难点。当想要获取小的偏置时,将会有大的离散(方差),反之亦然。
书中还提到,在使用最大似然法进行计算时,噪声可以扮演一个正则器的作用(最大后验密度)。对于噪声所带来的影响,可以使用工具变量的方法矫正值从而对未知参数提供一个渐进无偏的估计。
此文为看《神经网络与机器学习》一书的个人读后感,在此注释。