3 线性回归模型

最新推荐文章于 2022-03-02 01:14:21 发布

大浪淘沙1

最新推荐文章于 2022-03-02 01:14:21 发布

阅读量1.7k

点赞数

前一章中我们谈论到一个Pattern Recognition的一个数学应用基础，这一章中我们会讨论一个具体的问题，就是线性模型回归问题(Linear Models for Regression)。

在讨论这一章中，我们先讨论一个概念，叫做基础函数(basis functions),我们举例说明 enter image description here

其中：g(xn)叫做基础函数(basis functions)。

因此，刚刚我们讨论到线性模型回归问题中:

enter image description here

因此，除了矩阵w之外， enter image description here 是一个非常重要的一个函数，如何才能达到分类效应？这里还需要讨论到另外一个概念，叫做sigmoid function

enter image description here

若要达到分类的效果，则：

enter image description here

下面讨论另外几个问题：

1、最大化概率和最小化平方值

enter image description here

因此，已知x,w的前提下，值为t的概率为：

enter image description here

因此，假设我们有一个样本 enter image description here ,和最终的结果，则他的几率为：

enter image description here

取自然对数：可得： enter image description here

其中：

enter image description here

我们将这个函数对w取导，并且将值取为0： enter image description here

因此我们就可以得到：

enter image description here

上面的计算就是用于确定矩阵w的方法，但是，这里我又会引出另外一个问题，就是在于，通常情况我们遇到的问题中，样本数据将会非常大，若数量超过1000，那么矩阵计算将会非常复杂，效率也会很低，那么我们这里引进另外一个概念，就是线性学习，或者是在线学习(online algorithm),通过不断修正w的值，我们在多次迭代计算后，得到一个比较接近理想的w的值 enter image description here

在前一章中，我们讨论过over-fitting的问题，我们之前讲过，由于over-fitting会导致泛化性降低，因此误差函数被修正为：

enter image description here

那么：

enter image description here

2、偏差变量分解

我们在第一章中讨论到的overfitting的问题，虽然通过减小M的值可以达到避免这个问题，但是限制这个变量会导致另外一个问题，就是会降低这个模型的灵活性，从而无法捕捉到一些数据的一些有趣并且有用的特性，同样，虽然引入修正项也可以避免overfitting的问题。但是如何确定λ的值也是一个问题。我们在前面一章中讲到过，overfitting的现象对于最大化可能性是一个十分糟糕的属性。在本章中，我们应当考虑贝叶斯模型的视角的复杂性，构建这样一个几率的视角是十分具有建设性的，即偏差变量分解(Bias-variance decomposition)我们需要将平方损失函数从平方和误差函数中分离出来进行分析，我们使用h(x)这个函数： enter image description here

期望误差函数E[L]可以被写为： enter image description here 第一项取决于我们对于y(x)函数的选择，因为这一项是非负的，所以最小值为0，如果我们有足够的数据集D，我们可以在任何度数上找到回归函数h(x)，但是在通常的实际应用中，D中所包含的数据个数N是有限的所以我们经常不知道回归函数h(x)的究竟是多少。但是，对于一个数据集D，我们可以使用我们的学习函数来获得一个预测函数y(x;D).不同的数据集会给出不同的函数和不同的平方差值，一个特定的学习函数的效用，是在对不同的数据集取平均而被评估得到的。 enter image description here

因此，期望损失值(expected loss)为:

expected loss=(bias)2+variance+noise enter image description here

我们的目标在于最小化期望损失值，通过实验我们可以发现，在variance和bias的值之间有一个平衡的关系(即当variance增大，bias减小，反之亦然),因此，最佳的模型在于能够在两者之间取一个平衡。

1、贝叶斯线性回归

我们在之前讨论中提到，设置一个线性回归模型的参数的最大概率中，由基本函数所决定的有效模型复杂度，是被数据集的数量大小所控制的,添加一个修正项意味着有效的模型复杂度可以被修正项系数的值所控制(虽然基础函数的选择也是很重要的),我们使用线性回归的贝叶斯方法来避免overfitting的问题,我们首先引入一个w的先验概率分布，我们也将噪音精确度参数β视作一个已知的常数从而给出：

enter image description here

m0是平均数，S0是协方差矩阵紧接着我们计算后验概率分布得： enter image description here

我们考虑一个特定的高斯分布进行讨论：

enter image description here

对后验概率分布取对数得： enter image description here

这样，最大化该后验概率等同于最小化平方误差函数之和。

2、预测分布通常情况下我们不仅仅对w感兴趣，我们更加感兴趣的是对于一个新输入的x值，他的t’究竟是多少，因此我们需要： enter image description here

其中 enter image description here

3、等价内核(Equivalent Kernel)：

预测平均值可以被写成一下形式：

enter image description here

该回归函数用于使用训练数据的线性组合来对结果进行预测，等价核函数k(x,x')可以被视为一个函数在已知x'的前提下，对x的函数的变化的函数。

我们对等价核函数进行深入的探讨：

enter image description here

核方程的线性回归的形成为我们提供了另外一个方法，即除了引入一组基本方程(basis function)的方法之外，我们还可以直接定义一个本地化的(localized)核方程用于对一个新的输入x进行预测，这个方法为我们提供了一个回归方法的计算框架，称作高斯过程(Gaussian Processes)，一个有效的核通过组合不同的权值与目标值之和来达到预测x的预测的目的，这些核函数对于所有的输入值的权值之和应为1，即： enter image description here

贝叶斯模型比较：

我们在这里从贝叶斯模型的角度讨论模型选择的问题，究竟怎样的预测模型才是比较好的？不同的模型之间又如何进行组合应用？

从贝叶斯模型的观点进行模型比较需要使用概率来表示不同模型的使用的不确定性，假设我们希望比较L个模型{Mi}(i=1、2、.....L),这里，“模型”指的是在已知的数据集D上的概率分布，不确定性是通过先验概率分布P(Mi)，我们希望得到后验概率 enter image description here

其中我们最感兴趣的是p(D|Mi)这一项，他表示不同的模型对于已经观察到的数据的概率分布，p(D|Mi)/p(D|Mj)标识的是两个模型的贝叶斯因子(Bayes Factor)，,我们一旦了解不同模型后验概率分布，我们可以得到：

如果一个模型是由w来决定，那么，可以得到：

enter image description here

从取样的角度来看，这个概率可以被视为从一个已知模型的先验概率中进行随机取样，这里还有一个很有趣的东西就是在于这个概率是一个在贝叶斯理论中在分母位置的归一化的修正项：

enter image description here

Evidence Approximation(证据逼近？我也不知道怎么解释)

虽然我们可以对参数w进行概率的加和，但是想要对所有的进行w,α,β都进行加和还是很棘手的，我们已知下面的公式：

enter image description here

而对于最后一项p(α.β|t),则是一个分布在(α’，β')周围的一个很高的尖峰形的分布，所以：

enter image description here

由贝叶斯理论得，后验概率可以写为：

enter image description here

其中:

enter image description here

大浪淘沙1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3 线性回归模型

前一章中我们谈论到一个Pattern Recognition的一个数学应用基础，这一章中我们会讨论一个具体的问题，就是线性模型回归问题(Linear Models for Regression)。在讨论这一章中，我们先讨论一个概念，叫做基础函数(basis functions),我们举例说明其中：g(xn)叫做基础函数(basis functions)。因此，刚刚我们讨论
复制链接

扫一扫