线性回归

一、线性基函数模型

回归问题在二维空间里其实就是一个曲线拟合问题。


我们讨论的是线性回归(Liner Regression),其具有线性形式,最简单的模型是输入变量的线性组合。


但是我们这里关注的线性,并不是函数对于输入变量的线性,而是针对参数w的线性

对于上面这种简单形式,往往因为x 有很大的局限性,所以我们这样拓展模型的类别:将输入变量的固定的非线性函数进行线性组合


其中被称为基函数

当然,我们往往把Wo也写进去,这样的形式就是

                              

其中,   

正式这种关于x的非线性,增强了回归问题的准确度,而关于参数w的线性化,让数学分析变得更简单,但是一样也会带来它的局限性。事实上,这是线性回归常用的模型,且在实际模式识别应用中,基函数往往作为特征。对于这个线性回归模型,基函数的选择有比较强的自由度,且往往选择不同会造成非常不同的结果。

【理解用】偏执方差分析(bias-variance trade-off)

偏执方差分析是频率学观点的一种分析方法,这个方法并不实用,但可以给我提供很好的思路。通过分析频率学和贝叶斯可以发现,频率学观点是古典模型,强调实验的可重复性然后来求频率,而频率的稳定值就是概率。但贝叶斯不强调实验可重复,而强调通过先验来估计后验。

言归正传。第一节讨论似然函数时对应的是已知数据,现在从决策论的角度来考虑损失函数,就是我们得到了回归模型y(x),现在来预测未知数据怎么样呢?

平方损失误差函数的期望可以写成:

             

y(x)  为模型值,就是估计值

h(x)  为准确值(我们不知道这个准确值)

可以看到上式的第二项和y(x)没有关系,可以理解为数据本身的噪声造成的,不是估计上的误差。我们分析的目的,就是使平方误差函数最小。

假如我们有很多数据集D,每个数据集的大小为N,并且每个数据集都独立地从分布P(t,x)中选取。对于每一个数据集,我们都能通过学习得到一个模型  y(x;D)     

(x是数据源,t是已知的数据对应的结果,y是我们要预测的模型)   这里再次体现,频率学观点喜欢重复实验来分析。

如果我们关于D求期望(推导过程比较复杂,都是用的概率论中的知识),得到:

                         

第一项是模型值期望和准确值的平方差,所以叫做偏置,描述的是模型的准确性:准

第二项是模型值和模型值均值之间的平方差的均值,所以叫方差,描述的是模型的平稳性:稳

结合上面的公司可以得出一套公式如下:

                             

                   期望损失 = 偏置 + 方差 + 噪声


实际上,偏置和方差是一对相互矛盾的参数,如果减小方差,让众多的y(x;D)更加平稳且差别不大,必然会造成平均之后也不够接近真实值,偏置变大,反之亦然。所以这种方法也叫偏置-方差折中法。

上面都是从纯公式,纯理论来大范围感慨得到的结论,那对于这个例子而言,我们可以定量的来考察:



这就是频率学的偏执方差分析法,在我们最小化期望误差函数时,可以分为偏置、方差、噪声。噪声是数据自身的,于我们要估计的模型y(x) 无关。偏置和方差是一对矛盾量,相互折中的过程。重要的是,我们往往能通过这种思路来分析正则化时的参数

二、线性回归的三种方法

1.最大似然(Maximum Likelihood estimation)( ML )

这是最简单的点估计,也就是说我们需要根据P(D|w)来估计最优的参数w,是一个最优化问题,在高斯噪声下往往表现为最小化误差平方函数。

在数据非常足够多的时候,这种方法是奏效的,但数据稍微少一点,如果尽最大似然函数最可能的去接近样本点得到的模型,很容易过拟合。

2.最大后验(Maximum a posterior estimation)( MAP )

这也是一种点估计,是最大似然函数的改进版,在原有的基础上加上了w的先验概率,假定了P(w)的分布。然后根据贝叶斯定理: Posterior 正比于 likelihood * prior    来计算后验概率最大的W

加上先验概率,实际上就相对于正则化(regularization)

如果P(w)为拉普拉斯分布,则加的是L1_norm  ,也叫 L1  正则化,在回归上叫Lasso回归;如果P(w)为高斯分布,则加的是L2_norm ,也叫L2 正则化,在回归上称为岭回归。

正则化,最大后验估计确实可以消除过拟合,但这种情况下寻找正则化系数是一项很困难的工作,甚至要借助统计学的方法,其中上文偏置方差分析给出了这样一种分析。

3.贝叶斯模型

贝叶斯不在是点估计,也没有给参数W指定某种分布,而是考虑整个W的分布!贝叶斯模型是要计算整个W的分布,而不是通过点估计来计算W的最优值!当然,这种方法是可以防止过拟合的,但是计算量比较大。

由此可见,对于数据点很多的情况,ML就已经够用了,而对于数据没那么多的情况,MAP更适合一点,而对于数据很少的情况下,贝叶斯是最好的选择,总之,数据越多,先验Prior作用越小!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值