线性回归

最新推荐文章于 2024-08-09 15:23:55 发布

专业女神杀手

最新推荐文章于 2024-08-09 15:23:55 发布

阅读量638

点赞数 1

分类专栏：模式识别与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Eyesleft_being/article/details/80377965

版权

模式识别与机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、线性基函数模型

回归问题在二维空间里其实就是一个曲线拟合问题。

我们讨论的是线性回归(Liner Regression)，其具有线性形式，最简单的模型是输入变量的线性组合。

但是我们这里关注的线性，并不是函数对于输入变量的线性，而是针对参数w的线性

对于上面这种简单形式，往往因为x 有很大的局限性，所以我们这样拓展模型的类别：将输入变量的固定的非线性函数进行线性组合

其中被称为基函数

当然，我们往往把Wo也写进去，这样的形式就是

其中，

正式这种关于x的非线性，增强了回归问题的准确度，而关于参数w的线性化，让数学分析变得更简单，但是一样也会带来它的局限性。事实上，这是线性回归常用的模型，且在实际模式识别应用中，基函数往往作为特征。对于这个线性回归模型，基函数的选择有比较强的自由度，且往往选择不同会造成非常不同的结果。

【理解用】偏执方差分析（bias-variance trade-off）

偏执方差分析是频率学观点的一种分析方法，这个方法并不实用，但可以给我提供很好的思路。通过分析频率学和贝叶斯可以发现，频率学观点是古典模型，强调实验的可重复性然后来求频率，而频率的稳定值就是概率。但贝叶斯不强调实验可重复，而强调通过先验来估计后验。

言归正传。第一节讨论似然函数时对应的是已知数据，现在从决策论的角度来考虑损失函数，就是我们得到了回归模型y(x),现在来预测未知数据怎么样呢？

平方损失误差函数的期望可以写成：

y(x) 为模型值，就是估计值

h(x) 为准确值（我们不知道这个准确值）

可以看到上式的第二项和y(x)没有关系，可以理解为数据本身的噪声造成的，不是估计上的误差。我们分析的目的，就是使平方误差函数最小。

假如我们有很多数据集D，每个数据集的大小为N，并且每个数据集都独立地从分布P（t,x）中选取。对于每一个数据集，我们都能通过学习得到一个模型 y(x;D)

(x是数据源，t是已知的数据对应的结果，y是我们要预测的模型) 这里再次体现，频率学观点喜欢重复实验来分析。

如果我们关于D求期望（推导过程比较复杂，都是用的概率论中的知识），得到：

第一项是模型值期望和准确值的平方差，所以叫做偏置，描述的是模型的准确性：准

第二项是模型值和模型值均值之间的平方差的均值，所以叫方差，描述的是模型的平稳性：稳

结合上面的公司可以得出一套公式如下：

期望损失 = 偏置 + 方差 + 噪声

实际上，偏置和方差是一对相互矛盾的参数，如果减小方差，让众多的y(x;D）更加平稳且差别不大，必然会造成平均之后也不够接近真实值，偏置变大，反之亦然。所以这种方法也叫偏置-方差折中法。

上面都是从纯公式，纯理论来大范围感慨得到的结论，那对于这个例子而言，我们可以定量的来考察：

这就是频率学的偏执方差分析法，在我们最小化期望误差函数时，可以分为偏置、方差、噪声。噪声是数据自身的，于我们要估计的模型y(x) 无关。偏置和方差是一对矛盾量，相互折中的过程。重要的是，我们往往能通过这种思路来分析正则化时的参数

二、线性回归的三种方法

1.最大似然（Maximum Likelihood estimation）( ML )

这是最简单的点估计，也就是说我们需要根据P（D|w）来估计最优的参数w，是一个最优化问题，在高斯噪声下往往表现为最小化误差平方函数。

在数据非常足够多的时候，这种方法是奏效的，但数据稍微少一点，如果尽最大似然函数最可能的去接近样本点得到的模型，很容易过拟合。

2.最大后验（Maximum a posterior estimation）( MAP )

这也是一种点估计，是最大似然函数的改进版，在原有的基础上加上了w的先验概率，假定了P（w）的分布。然后根据贝叶斯定理: Posterior 正比于 likelihood * prior 来计算后验概率最大的W

加上先验概率，实际上就相对于正则化（regularization）

如果P（w）为拉普拉斯分布，则加的是L1_norm ，也叫 L1 正则化，在回归上叫Lasso回归；如果P（w）为高斯分布，则加的是L2_norm ，也叫L2 正则化，在回归上称为岭回归。

正则化，最大后验估计确实可以消除过拟合，但这种情况下寻找正则化系数是一项很困难的工作，甚至要借助统计学的方法，其中上文偏置方差分析给出了这样一种分析。

3.贝叶斯模型

贝叶斯不在是点估计，也没有给参数W指定某种分布，而是考虑整个W的分布！贝叶斯模型是要计算整个W的分布，而不是通过点估计来计算W的最优值！当然，这种方法是可以防止过拟合的，但是计算量比较大。

由此可见，对于数据点很多的情况，ML就已经够用了，而对于数据没那么多的情况，MAP更适合一点，而对于数据很少的情况下，贝叶斯是最好的选择，总之，数据越多，先验Prior作用越小！

专业女神杀手

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。