回归的线性模型（1）

最新推荐文章于 2024-04-22 22:26:39 发布

MTM00

最新推荐文章于 2024-04-22 22:26:39 发布

阅读量2.2k

点赞数

分类专栏：机器学习 PRML 文章标签：线性模型 PRML

本文链接：https://blog.csdn.net/MTM00/article/details/61620452

版权

Linear Models for Regression（1）

回归的线性模型（1）

写在前面
本文是本人自学PRML过程中整理思路用，水平有限，如有错误请各位前辈及时指出，感激不尽…

$x$ : 标量
$\mathbf{x}$ : 向量
$X$ : 矩阵
$\phi$ : 函数，输入为一个样本的原始特征向量，输出为向量中的值的任意非线性组合
$\varPhi$ : $M$ 维向量，所有 $\phi$ 组成的向量（即每个样本经 $\phi$ 映射得到的新特征向量）
$\Phi$ : $N \times M$ 矩阵，每个样本对应的 $\varPhi$ 组成的矩阵

主线——目标

回归问题的目标：在给定 $M$ 维输入变量 $\mathbf{x}$ 的情况下，预测一个或者多个连续目标（target）变量 $t$ 的值。

考虑一个数据集 $X = \{\mathbf{x}_1,...,\mathbf{x}_N\}^T$ ，对应目标值 $\mathbf{t} = \{t_1,...t_N\}$

首先，我们要搞一个概率分布 $p(t\ |\ \mathbf{x})$ 出来，并假设这些数据点是独立的从该分布中抽取的。来看线性回归：

简单线性回归
$y (x, w) = w 0 + w 1 x 1 + w 2 x 2 + . . . + w D x D$ $y(\mathbf{x},\mathbf{w}) = w_0 + w_1x_1 + w_2x_2 + ... + w_Dx_D$

其中 $\mathbf{x} ＝ (x_1,...,x_D)^T$ 。

副本1——基函数

PRML里说：

通过将一组输入变量的非线性函数进行线性组合,我们可以获得一类更加有用的函数,被称为基函数（basis function）

人话：
比如原来的每一个样本 $\mathbf{x} ＝ (x_1,...,x_D)^T$ ，我可以不直接输入 $x_1,x_2...$ ，可以变成： $x_1,x_1^2,x_2,x_2^2,x_1x_2...$ 形式不限（类比基变换）。

令 $\phi_j(\mathbf{x})$ 为第 $j$ 列值，则变换后：

$y (x, w) = w 0 + \sum j = 1 M - 1 w j ϕ j (x)$ $y(\mathbf{x},\mathbf{w}) = w_0 + \sum_{j=1}^{M-1}w_j\phi_j(\mathbf{x})$

$\phi_j(\mathbf{x})$ 被称为基函数（basis function）

参数 $w_0$ 为偏置参数（参考 $y = ax + b$ 中的 $b$ ，不同于统计学中的偏置），通常定义一个额外的基函数 $\phi_0(\mathbf{x})= 1$ ，这时：

$y (x, w) = \sum j = 0 M - 1 w j ϕ j (x) = w T Φ (x)$ $y(\mathbf{x},\mathbf{w}) = \sum_{j=0}^{M-1}w_j\phi_j(\mathbf{x}) = \mathbf{w}^T\varPhi(\mathbf{x})$

其中 $\mathbf{w} = (w_0,...,w_{M-1})^T, \varPhi = (\phi_0,...\phi_{M-1})^T$ 。

实际应用中可能会对原始数据进行特称抽取，原始样本为向量 $\mathbf{x}$ ，特征向量就可以用 $\{\phi_j(\mathbf{x})\}$ 表示。

关于基函数，PRML里还介绍有：
＊高斯基函数
＊ sigmoid基函数（怎么哪都有你sigmoid？黑人问号
＊ tanh函数（logistic sigmoid的基友
＊傅立叶基函数
＊小波
…
（Orz 不懂怎么选基，慢慢来吧）

主线——尝试

现在假设：目标变量 $t$ 由确定的函数 $y (\mathbf{x},\mathbf{w})$ 给出。
当然这么直接硬上有点僵硬，上高斯噪声，即：

$t = y (x, w) + ϵ$ $t = y(\mathbf{x},\mathbf{w}) + \epsilon$
其中 $\epsilon$ 是一个均值为0、精度（方差倒数）为 $\beta$ 的高斯随机变量。

则 $t$ 的分布由条件分布 $p(t\ |\mathbf{x},\mathbf{w},\beta)$ 给出：

$p (t | x, w, β) =  (t | y (x, w), β - 1)$ $p(t\ |\mathbf{x},\mathbf{w},\beta) = \mathcal{N}(t\ |y(\mathbf{x},\mathbf{w}), \beta^{-1})$

可以看到，给定x时，t的分布是单峰的，一般实际数据更复杂一些，用单峰去拟合可能效果不会很好（也就是说即使是加了这么个噪声，也就比僵硬好那么一点，PRML后面会讲到混合条件高斯分布，可以描述多峰，＝＝我还没看到…）

有了这个条件分布之后怎么办？当然希望似然函数越大越好（个人理解：背后的直觉是给定条件分布参数 $X$ 后，应选择参数 $\mathbf{w},\beta$ 使得到对应目标向量 $\mathbf{t}$ 的概率最大）。

似然函数（条件是各样本独立同分布）：

$p (t | X, w, β) = \prod n = 1 N  (t n | y (x n, w), β - 1)$ $p(\mathbf{t}\ |\ X, \mathbf{w}, \beta) = \prod_{n=1}^{N}\mathcal{N}(t_n\ |\ y(\mathbf{x_n}, \mathbf{w}), \beta^{-1})$
其中
$y (x n, w) = w T Φ (x n)$ $y(\mathbf{x}_n,\mathbf{w}) = \mathbf{w}^T\varPhi(\mathbf{x}_n)$
则：
$p (t | X, w, β) = \prod n = 1 N  (t n | w T Φ (x n),$

最低0.47元/天解锁文章

MTM00

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
回归的线性模型（1）

Linear Models for Regression（1）回归的线性模型（1）xx : 标量 x\mathbf{x} : 向量 XX : 矩阵 ϕ\phi: 函数，输入为一个样本的原始特征向量，输出为向量中的值的任意非线性组合 Φ\varPhi : MM 维向量，所有 ϕ\phi 组成的向量（即每个样本经ϕ\phi 映射得到的新特征向量） Φ\Phi : N×
复制链接

扫一扫