模式识别和机器学习笔记第三章线性回归模型

最新推荐文章于 2021-01-28 12:23:08 发布

iteye_14216

最新推荐文章于 2021-01-28 12:23:08 发布

阅读量378

点赞数

分类专栏： Machine Learning 文章标签： J#

Machine Learning 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

第三章线性回归模型
这章主要介绍线性回归模型，回归问题的目标是给一个D-维的输入变量，预测出一个或者多个目标连续
变量的值。第一章已经介绍了多项式曲线拟合的问题，这个是特殊的回归问题，被称为线性回归模型。
通过线性组合基本函数，可以获得很有用的一类函数，具有很简单的分析属性，并且由于基本函数
可以不是线性函数，所以相对于输入来说，具有非线性，可以描述相对复杂的问题。
给一个由N个观测值组成的训练集{Xn}，包括相应的目标值{tn}，一种简单的方式是构建恰当的函数y(x)，
给出一个输入x,可以得到预测的目标值t。然后更一般的，可以从概率的观点，我们的目标是建模预测分布p(t|x)，
表达了我们对给定x预测出的目标值t的不确定性。我们可以通过最小化损失函数，从这个条件分布中得到预测值t。
3.1 基本线性模型
最简单的线性回归模型是输入参数的线性组合。y(x, w) = w0 + w1 x1 + . . . + wD xD
我们可以扩展它，考虑输入变量非线性函数的线性组合。通过使用非线性基本函数，我们可以得到y(x,w)
是关于x的非线性函数，但是参数是线性的，这个可以很大程度简化这类模型的分析。通常在模式识别中，
将最初的变量通过基本函数变换做预处理，被称为特征抽取或者特征选择。
第一章多项式拟合的例子，基本函数是{x^j}，多项式基本函数，它的缺点是它是相对于输入变量的
全局函数，在一个区域的变化会影响其他区域。这个可以通过将输入空间划分，然后在不同的空间拟合不同
的多项式。
有很多可以选择的基本函数，比如高斯函数exp{-(x-uj)^2/2s^2},uj控制着基本函数在输入空间的
的位置，参数s控制这空间中值的大小。sigmoidal基本函数也经常被使用φj(x)=σ( (x-uj)/s )其中σ(x)是
logistic sigmoid函数σ(x) = 1/(1+exp(-x))，这个函数和tanh函数相关，并且tanh(x)= 2σ(x)-1.另
外可以选的函数有傅立叶基本函数，每一个基本函数代表了特定的频率和有限的空间，在空间和频率上都具有局部性，
这对信号处理有很大的用处，比如可用作小波变换的wavelets。本章的内容并不局限于具体的基本函数。
3.1.1 最大似然估计和最小二乘法
第一章我们通过最小化错误平方和函数拟合多项式，并且这个错误函数可以通过高斯噪音模型的最大似然估计来得到
。我们下面更详细的介绍最小二乘法和最大似然估计的关系。
假设目标值t为y(x,w)和额外的高斯噪音，即：
t = y(x,w) + e
e是均值为0的高斯随机变量，精度为β，所以t|x,w,β满足均值为y(x,w),精度为β的高斯分布：
p(t|x,w,β) = N(t|y(x,w),β^-1)

高斯noise的假设隐含着条件分布t|x是单峰的，在一些其他的应用中可能并不适合。一个扩展方式是混合条件高斯分布，它允许多峰值的条件分布。

似然函数：
p(t|x,w,β) = Mult(1..N){N(tn|wTφ(xn),β^-1)}
log形式：
ln p(t|w, β)=N/2*ln β − N/2*ln(2π) − βED(w)
其中
ED(w) = 1/2*Sum(1..N){tn - wTφ(xn)}^2
计算lnp(t|w,β)梯度,得到wML =ΦT * Φ^−1 * ΦT * t
Φ是N * M的矩阵，被称为design matrix。 Φnj = φj(xn),

我们可以得到bias w0是目标值t的平均值和基本函数权重和的平均值之差。
公式(3.19)。

3.1.2 最小二乘法几何属性：
从几何方面解释最小二乘法，最小二乘回归函数是通过寻找目标集合t向由基本函数φj(x)
组成的子空间的垂直投影得到，因为这个时候y(x,w)和t距离最近。参考图3.2

3.1.3 顺序学习(sequence learning)
最大似然的方法，一次处理需要整个的训练集，如果数据量很大，需要很大的内存和计算。
在第一章说过如果数据集很大，那么可以采用顺序学习的算法，也被称为在线学习算法。
这种算法每次考虑一个数据，每次模型参数得到更新。顺序学习也适用于观察的值来自于连续的数据流，在所有的数据流观察完之前能够做出预测。
我们可以通过随机梯度下降法（ stochastic gradient descent）来实现这个算法。
w(τ+1) = w(τ) − η∇En
在最小二乘法中可以使用：
w(τ+1) = w(τ) + η(tn − w(τ)Tφn)φn
这个被称为least-mean-squares或者LMS算法。η称为学习率。

3.1.4 规范化的最小二乘化（Regularized least squares）
在1.1节已经介绍通过给错误函数添加规范化因子来控制过度拟合，所以最小化的错误函数
具有如下形式： ED(w) + λEW(w)
λ是规范化因子的系数，控制了依赖于数据的错误函数ED(w)和规范化因子EW(w)。
最简单的规范化是权重向量w的平方和：
EW(w) =1/2　*　wT　w.
结合最小化二乘法的错误函数：
E(w) =1/2 sum(1..N){tn − wTφ(xn)}^2
错误函数为：
1/2 sum(1..N){tn − wTφ(xn)}^2 + 1/2 * wTw.
通过使用规范化因子，可以使得参数缩小，趋向于０，这是机器学习和统计学所推荐的，
能够避免过度拟合。
使用这个规范化因子，使得错误函数仍然是关于ｗ的二次函数，所以可以得到精确的最小化
形式。计算其关于ｗ的梯度，使其为０，我们可以解出ｗ
w = (λI + ΦTΦ)^−1 * ΦT * t.
一个更一般的规范化因子可以采用：
sum(1..N){|wj|^q}
当q为二的时候，就是我们采用的二次规范化因子。使用规范化因子可以在少量训练数据，
复杂模型的情况下，不至于严重的过度拟合。因为通过它可以限制有效模型的复杂性，
但是他将选择恰当的基本函数转化成为选择适当参数λ的问题了。

3.1.5 多输出问题：
前面我们一直考虑单个目标值t的问题，有些情况下我们需要预测多个目标值。我们可以通过
对于不同的组件t，引入不同的基本函数来做，这就是多值独立回归问题。然而一个比较有趣和常用的方式是，使用相同的基本函数集合来建模目标向量的多个组件：
y(x,w) = WTφ(x)
y被是k维列向量。W是M*K个参数的矩阵，φ(x)是M维的列向量，其元素可以用φj(x)表示
φ0(x) = 1.
如果我们将目标向量采用isotropic Gaussian条件分布，那么：
p(t|x,W, β) = N(t|WTφ(x), β^−1I).
我们计算其似然函数，和前面的一样，我们可以得到：
WML =（ΦTΦ）^−1 ΦTT.
3.2 偏置方差分解(Bias-Variance Decomposition)
我们到现在为止讨论的线性回归模型，假设它的形式和基本函数都是固定的。我们在第一章
看到使用最大似然或者等价的最小二乘法，在很少的数量的训练集上训练复杂的模型容易导致过度拟合。然而限制基本函数的数量来避免过度拟合会导致模型只能捕捉到有限的兴趣的和重要的特征。虽然规范化因子可以控制过度拟合，但是这会引起一个问题：我们如何在选择恰当的规范化系数λ。寻求关于权重向量w和规范化因子λ来最小化规范化错误函数并不是
正确的方法，因为这将导致非规范化的方法λ = 0.
我们在前面的章节中，过度拟合现象是最大似然方法一个不幸的固有属性，但是在贝叶斯的背景下关于参数边缘化不会引起这个问题。这章我们以贝叶斯的视角深度考虑模型的复杂性问题。在这之前我们先介绍以频率的观点讨论模型的复杂性，即：偏置方差折中。
在1.5.5节我们得到期望平方损失函数为：
[img]http://fuliang.iteye.com/upload/picture/pic/89110/39f98403-123a-38c6-8a70-5bb91ca8a871.jpg[/img]
我们将第一部分{y(x;D) − h(x)}^2添加减去ED[y(x;D)]展开
最后得到
ED{y(x;D) − h(x)}^2 = {ED[y(x;D)] − h(x)}^2 +ED{y(x;D) − ED[y(x;D)]}^2
第一部分是bias的平方，第二部分是方差。
我们的目标是最小化期望损失，最终我们将它分解为bias的平方、variance和常量的噪音。灵活的模型
会有很低的偏执和很高的方差，而严格的模型具有高bias和低variance。一个具有最有的
预测能力的模型，需要在偏执和方差之间平衡。

3.3 贝叶斯线性回归【待续】

iteye_14216

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模式识别和机器学习笔记第三章线性回归模型

第三章线性回归模型这章主要介绍线性回归模型，回归问题的目标是给一个D-维的输入变量，预测出一个或者多个目标连续变量的值。第一章已经介绍了多项式曲线拟合的问题，这个是特殊的回归问题，被称为线性回归模型。通过线性组合基本函数，可以获得很有用的一类函数，具有很简单的分析属性，并且由于基本函数可以不是线性函数，所以相对于输入来说，具有非线性，可以描述相对复杂的问题。 ...
复制链接

扫一扫