PRML读书笔记——线性回归模型

最新推荐文章于 2024-08-09 07:47:17 发布

GZGlenn

最新推荐文章于 2024-08-09 07:47:17 发布

阅读量2.2k

点赞数

分类专栏：机器学习文章标签：读书笔记 PRML 线性回归模型偏置-方差分解模型证据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hubin232/article/details/70447963

版权

这一章从线性回归模型的基本形式出发，主要围绕线性基函数的回归模型展开，分析了最大似然估计和最小平方误差函数的关系、最小平方误差函数的几何意义、正则化的最小平方误差，然后用偏置-方差分解的角度理解正则化项；用贝叶斯的思想分析线性回归模型，介绍了模型证据的意义，最后分析线性回归模型的局限性

线性基函数模型

基础

回归问题的最简单模型是输⼊变量的线性组合：

y (x, w) = w 0 + w 1 x 1 + . . . + w D x D

$y(x,w)=w_{0}+w_{1}x_{1}+...+w_{D}x_{D}$

这通常被称为线性回归，模型的关键是它既是 $\left\{w_{k}\right\}$ 的线性函数，也是输入变量 $\left\{x_{i}\right\}$ 的线性函数，虽然简单但是也带来了很大的局限性。

考虑将输⼊变量的固定的⾮线性函数进⾏线性组合，形式为：

y (x, w) = w 0 + \sum j = 1 M - 1 w j ϕ j (x)

$y(x,w) = w_{0}+\sum _{j=1}^{M-1}w_{j}\phi_{j}(x)$

其中， $\phi_{j}(x)$ 被称为基函数，这个模型参数总数为M

这里 $w_{0}$ 是偏置参数，可以融入系数中，得：

y (x, w) = \sum j = 0 M - 1 w j ϕ j (x) = w T x

$y(x,w)=\sum _{j=0}^{M-1}w_{j}\phi_{j}(x)=w^{T}x$

现在， $y(w,x)$ 是x的非线性函数，但它依然是 $w$ 的线性函数，一般模型依然被称为线性模型

基函数选择有很多如

（1）径向基函数

ϕ j (x) = e x p {- ( x - μ j ) 2 2 s 2}

$\phi_{j}(x)=exp\left \{ -\frac{(x-\mu_{j})^{2}}{2s^{2}} \right \}$

（2）sigmoid

σ a = 1 1 + e x p ( - a )

$\sigma_{a}=\frac{1}{1+exp(-a)}$

最大似然与最小平方

现在线性回归的模型已经搭建出来，考虑求解，假设⽬标变量 $t$ 由确定的函数 $y(x,w)$ 给出，这个函数被附加了⾼斯噪声，即

t = y (x, w) + ϵ

$t = y(x,w) + \epsilon$

假设噪声是零均值的高斯随机变量，精度为 $\beta$ ，则对应的概率分布满足：

p (t | x, w, β) = N (t | y (x, w), β - 1)

$p(t|x,w,\beta)=N(t|y(x,w),\beta^{-1})$

E [t | x] = \int t p (t | x) d t = y (x, w)

$E[t|x]=\int tp(t|x)dt=y(x,w)$

注意，这里有一个假设：给定x的条件下，t的条件分布是单峰的，这对于⼀些实际应⽤来说是不合适的。对于不同问题而言，这或许会是修改loss的起源之一。

那么，对于一个观测数据集 $X=\left\{x_{1},...,x_{N}\right\}$ ，它对应的后验概率为：

p (t | x, w, β) = \sum n = 1 N N (t n | w T Φ (x n), β - 1)

$p(t|x,w,\beta)=\sum_{n=1}^{N}N(t_{n}|w^{T}\Phi(x_{n}),\beta^{-1})$

然后构造似然函数

l n p (t | w, β) = = \sum n = 1 N l n N (t n | w T ϕ (x n), β - 1) N 2 l n β - N 2 l n (2 π) - β E D (w)

$\begin{eqnarray} ln\ p(t|w,\beta)&=&\sum_{n=1}^{N}ln\ N(t_{n}|w^{T}\phi(x_{n}),\beta^{-1})\\&=&\frac{N}{2}ln\ \beta-\frac{N}{2}ln(2\pi)-\beta E_{D}(w) \end{eqnarray}$

其中，平方和误差定义为：

E D (w) = 1 2 \sum n = 1 N {t n - w T ϕ (x n)} 2

$E_{D}(w)=\frac{1}{2}\sum _{n=1}^{N}\left\{ t_{n}-w^{T}\phi(x_{n}) \right\}^{2}$

所以，平方和误差本身就是出自高斯分布的前提假设的。

对似然函数求导并令导数为0，可得到：

w M L = (Φ T Φ) - 1 Φ T t

$w_{ML}=(\Phi^{T}\Phi)^{-1}\Phi^{T}t$

上式是最小平方问题的规范方程，其中 $\Phi$ 是 $N \times M$ 的设计矩阵，有：

Φ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。