【机器学习基础】概率判别式模型

最新推荐文章于 2020-12-04 16:44:59 发布

天堂的鸽子

最新推荐文章于 2020-12-04 16:44:59 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102494837

版权

本系列为《模式识别与机器学习》的读书笔记。

一，概率判别式模型

考察⼆分类问题，对于⼀⼤类的类条件概率密度 $p(\boldsymbol{x}|\mathcal{C}_k)$ 的选择，类别 $\mathcal{C}_1$ 后验概率分布可以写成作⽤于 $\boldsymbol{x}$ 的线性函数上的logistic sigmoid函数的形式。类似地，对于多分类的情形，类别 $\mathcal{C}_k$ 的后验概率由 $\boldsymbol{x}$ 的线性函数的softmax变换给出。对于类条件概率密度 $p(\boldsymbol{x}|\mathcal{C}_k)$ 的具体的选择，我们已经使⽤了最⼤似然⽅法估计了概率密度的参数以及类别先验 $p(\mathcal{C}_k)$ ，然后使⽤贝叶斯定理就可以求出后验类概率。
寻找⼀般的线性模型参数的间接⽅法是，分别寻找类条件概率密度和类别先验，然后使⽤贝叶斯定理。

1，固定基函数

考虑直接对输⼊向量 $(x)$ 进⾏分类的分类模型，然⽽，如果⾸先使⽤⼀个基函数向量 $\boldsymbol{\phi}(\boldsymbol{x})$ 对输⼊变量进⾏⼀个固定的⾮线性变换，所有的这些算法仍然同样适⽤，最终的决策边界在特征空间 $\boldsymbol{\phi}$ 中是线性的，因此对应于原始 $\boldsymbol{x}$ 空间中的⾮线性决策边界。在特征空间 $\boldsymbol{\phi}(\boldsymbol{x})$ 线性可分的类别未必在原始的观测空间 $\boldsymbol{x}$ 中线性可分，基函数中的某⼀个通常设置为常数，例如 $\phi_{0}(\boldsymbol{x})=1$ ，使得对应的参数 $w_0$ 扮演偏置的作⽤。

2，`logistic`回归

考虑⼆分类问题在⼀般的假设条件下，类别 $\mathcal{C}_1$ 的后验概率可以写成作⽤在特征向量 $\boldsymbol{\phi}$ 的线性函数上的logistic sigmoid函数的形式，即

$p(\mathcal{C}_1|\boldsymbol{\phi})=y(\boldsymbol{\phi})=\sigma(\boldsymbol{w}^T\boldsymbol{\phi})\tag{4.55}$

且 $p(\mathcal{C}_2|\boldsymbol{\phi})=1-p(\mathcal{C}_1|\boldsymbol{\phi})$ ， $\sigma(·)$ 是logistic sigmoid函数。使⽤统计学的术语，这个模型被称为 logistic回归 ，特别注意，这是⼀个分类模型⽽不是回归模型。对于⼀个 $M$ 维特征空间 $\boldsymbol{\phi}$ ，这个模型有 $M$ 个可调节参数。

现在使⽤最⼤似然⽅法来确定logistic回归模型的参数。使⽤logistic sigmoid函数的导数

$\frac{\mathrm{d}\sigma}{\mathrm{d}a}=\sigma(1-\sigma)\tag{4.56}$

对于⼀个数据集 $\boldsymbol{\phi}_n$ , $t_n$ ，其中 $t_n\in\{0,1\}$ 且 $\boldsymbol{\phi}_n=\boldsymbol{\phi}(\boldsymbol{x}_n)$ ，并且 $n=1,\dots,N$ ，似然函数可以写成

$p(\mathbf{t}|\boldsymbol{w})=\prod_{n=1}^{N}y_{n}^{t_n}\{1-y_n\}^{1-t_n}\tag{4.57}$

其中 $\mathbf{t} = (t_1,\dots,t_N)^T$ 且 $y_n=p(\mathcal{C}_1|\boldsymbol{\phi}_n)$ 。通过取似然函数的负对数的⽅式，定义⼀个误差函数，这种⽅式产⽣了交叉熵（cross-entropy）误差函数，形式为

$E(\boldsymbol{w})=-\ln p(\mathbf{t}|\boldsymbol{w}) = -\sum_{n=1}^{N}\{t_n\ln y_{n}+(1-t_n)\ln(1-y_n)\}\tag{4.58}$

其中 $y_n=\sigma(a_n)$ 且 $a_n=\boldsymbol{w}^{T}\boldsymbol{\phi}_n$ 。两侧关于 $\boldsymbol{w}$ 取误差函数的梯度，有

$\nabla E(\boldsymbol{w})= -\sum_{n=1}^{N}(y_n-t_n)\boldsymbol{\phi}_n\tag{4.59}$

3，迭代重加权最⼩平⽅

误差函数可以通过⼀种⾼效的迭代⽅法求出最⼩值，这种迭代⽅法基于Newton-Raphson迭代最优化框架，使⽤了对数似然函数的局部⼆次近似。为了最⼩化函数 $E(\boldsymbol{w})$ ，Newton-Raphson对权值的更新形式为（Fletcher, 1987; Bishop and Nabney, 2008）

$\boldsymbol{w}^{新}=\boldsymbol{w}^{旧}-\boldsymbol{H}^{-1}\nabla E(\boldsymbol{w})\tag{4.60}$

其中 $\boldsymbol{H}$ 是⼀个 Hessian矩阵，它的元素由 $E(\boldsymbol{w})$ 关于 $\boldsymbol{w}$ 的⼆阶导数组成。

⾸先，把Newton-Raphson⽅法应⽤到线性回归模型上，误差函数为平⽅和误差函数。这个误差函数的梯度和Hessian矩阵为

$\nabla E(\boldsymbol{w})=\sum_{n=1}^{N}(\boldsymbol{w}^{T}\boldsymbol{\phi}_n-t_n)\boldsymbol{\phi}_n=\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\boldsymbol{w}-\boldsymbol{\Phi}^{T}\mathbf{t}\tag{4.61}$

$\boldsymbol{H}=\nabla\nabla E(\boldsymbol{w})=\sum_{n=1}^{N}\boldsymbol{\phi}_n\boldsymbol{\phi}_{n}^{T}=\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\tag{4.62}$

其中 $\boldsymbol{\Phi}$ 是 $\times M$ 矩阵，第 $n$ ⾏为 $\boldsymbol{\phi}_{n}^{T}$ 。于是，Newton-Raphson更新形式为

$\begin{aligned}\boldsymbol{w}^{新}&=\boldsymbol{w}^{旧}-(\boldsymbol{\Phi}^{T}\boldsymbol{\Phi})^{-1}\{\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\boldsymbol{w}^{旧}-\boldsymbol{\Phi}^{T}\mathbf{t}\}\\&=(\boldsymbol{\Phi}^{T}\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^{T}\mathbf{t}\end{aligned}\tag{4.63}$

这是标准的最⼩平⽅解。

现在，把Newton-Raphson更新应⽤到logistic回归模型的交叉熵误差函数上。这个误差函数的梯度和Hessian矩阵为
$\nabla E(\boldsymbol{w})=\sum_{n=1}^{N}(y_n-t_n)\boldsymbol{\phi}_n=\boldsymbol{\Phi}^{T}(\mathbf{y}-\mathbf{t})\tag{4.64}$