【机器学习基础】线性基函数模型

最新推荐文章于 2024-01-07 02:09:45 发布

天堂的鸽子

最新推荐文章于 2024-01-07 02:09:45 发布

阅读量3.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102324103

版权

本系列为《模式识别与机器学习》的读书笔记。

一，线性基函数模型

1，线性基函数

回归问题的⽬标是在给定 $D$ 维输⼊（input）变量 $\boldsymbol{x}$ 的情况下，预测⼀个或者多个连续⽬标（target）变量 $t$ 的值。

通过将⼀组输⼊变量的⾮线性函数进⾏线性组合，我们可以获得⼀类更加有⽤的函数，被称为基函数（basis function）。

回归问题的最简单模型是输⼊变量的线性组合：
$y(\boldsymbol{x},\boldsymbol{w}) = w_0+w_1x_1+\dots+w_Dx_D\tag{3.1}$
其中， $\boldsymbol{x}=(x_1,x_2,\dots,x_D)^T$ ，通常称为线性回归（linear regression），这个模型的关键性质在于它是参数 $w_0 ,\dots ,w_D$ 的⼀个线性函数。但是，它也是输⼊变量 $x_i$ 的⼀个线性函数，这给模型带来了极⼤的局限性。因此扩展模型的类别：将输⼊变量的固定的⾮线性函数进⾏线性组合：
$y(\boldsymbol{x},\boldsymbol{w}) = w_0+\sum_{j=1}^{M-1}w_{j}\phi_{j}(\boldsymbol{x})\tag{3.2}$
其中， $\phi_{j}(\boldsymbol{x})$ 被称为基函数（basis function），参数 $w_0$ 使得数据中可以存在任意固定的偏置，这个值通常被称为偏置参数（bias parameter）。此模型称为线性模型。

通常，定义⼀个额外的虚“基函数” $\phi_{0}(\boldsymbol{x}) = 1$ 是很⽅便的，这时，
$y(\boldsymbol{x},\boldsymbol{w}) = \sum_{j=0}^{M-1}w_{j}\phi_{j}(\boldsymbol{x}) = \boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})\tag{3.3}$
其中， $\boldsymbol{w}=(w_0,x_1,\dots,w_{M-1})^T$ ， $\boldsymbol{\phi}=(\phi_0,\phi_2,\dots,\phi_{M-1})^T$ 。

在许多模式识别的实际应⽤中，我们会对原始的数据变量进⾏某种固定形式的预处理或者特征抽取。如果原始变量由向量 $\boldsymbol{x}$ 组成，那么特征可以⽤基函数 $\{\phi_{j}(\boldsymbol{x})\}$ 来表⽰。

多项式基函数的⼀个局限性在于它们是输⼊变量的全局函数，因此对于输⼊空间⼀个区域的改变将会影响所有其他的区域。这个问题的解决方案：把输⼊空间切分成若⼲个区域，然后对于每个区域⽤不同的多项式函数拟合，这样的函数叫做样条函数（spline function）（Hastie et al., 2001）。

⾼斯基函数：
$\phi_{j}(x)=\exp\left\{-\frac{(x-\mu_{j})^2}{2s^{2}}\right\}\tag{3.4}$
其中， $\mu_{j}$ 控制了基函数在输⼊空间中的位置，参数 $s$ 控制了基函数的空间⼤⼩。

sigmoid基函数：
$\phi_{j}(x)=\sigma\left(\frac{x-\mu_{j}}{s}\right)\tag{3.5}$
其中 $\sigma(a)$ 是 logistic sigmoid函数，定义为：
$\sigma_{a}=\frac{1}{1+\exp(-a)}\tag{3.6}$
除此之外，基函数还可以选择傅⾥叶基函数，tanh函数等等。其中，tanh函数 和 logistic sigmoid函数 的关系如下： $\tanh(a)=2\sigma(2a)-1$ 。

如图3.1～3.3，分别为是多项式基函数，⾼斯基函数，sigmoid基函数。

sigmoid基函数

2，最⼤似然与最⼩平⽅

假设⽬标变量 $t$ 由确定的函数 $y(\boldsymbol{x},\boldsymbol{w})$ 给出，这个函数被附加了⾼斯噪声，即

$t=y(\boldsymbol{x},\boldsymbol{w})+\epsilon$
其中， $\epsilon$ 是⼀个零均值的⾼斯随机变量，精度（⽅差的倒数）为 $\beta$ ，则有：
$p(t|\boldsymbol{x},\boldsymbol{w},\beta)=\mathcal{N}(t|y(\boldsymbol{x},\boldsymbol{w}),\beta^{-1})\tag{3.7}$
均值为：
$\mathbb{E}[t|\boldsymbol{x}]=\int tp(t|\boldsymbol{x})\mathrm{d}t=y(\boldsymbol{x},\boldsymbol{w})$
考虑⼀个输⼊数据集 $\mathbf{X}=\{\boldsymbol{x}_1,\dots, \boldsymbol{x}_N\}$ ，对应的⽬标值为 $t_1,\dots , t_N$ 。我们把⽬标向量 ${t_n\}$ 组成⼀个列向量，记作 $\mathbf{t}$ 。假设这些数据点是独⽴地从分布公式(3.7)中抽取的，那么可以得到下⾯的似然函数的表达式，它是可调节参数 $\boldsymbol{w}$ 和 $\beta$ 的函数，形式为：
$p(\mathbf{t}|\mathbf{X},\boldsymbol{w},\beta)=\prod_{n=1}^{N}\mathcal{N}(t_{n}|\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_{n}),\beta^{-1})\tag{3.8}$
取似然函数的对数，使⽤⼀元⾼斯分布的标准形式，可得：

最低0.47元/天解锁文章

天堂的鸽子

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
【机器学习基础】线性基函数模型

本系列为《模式识别与机器学习》的读书笔记。一，线性基函数模型1，线性基函数回归问题的⽬标是在给定 DDD 维输⼊（input）变量 x\boldsymbol{x}x 的情况下，预测⼀个或者多个连续⽬标（target）变量 ttt 的值。通过将⼀组输⼊变量的⾮线性函数进⾏线性组合，我们可以获得⼀类更加有⽤的函数，被称为基函数（basis function）。回归问题的最简单模型...
复制链接

扫一扫