Classification–Probabilistic Generative Models

最新推荐文章于 2021-09-06 23:47:39 发布

weixin_30586085

最新推荐文章于 2021-09-06 23:47:39 发布

阅读量73

点赞数

原文链接：http://www.cnblogs.com/stat-cchen/archive/2013/02/22/2916570.html

版权

问题描述

考虑二分类问题，

\begin{equation}p(C_1|x)=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}=\frac{1}{1+exp(-a)}=\sigma(a)\end{equation}

其中$a=ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$。$\sigma(a)$即为logistic sigmoid function，而且有$\sigma(-a)=1-\sigma(a)$，$a=ln(\frac{\sigma}{1-\sigma})$，后者被称为logit function。

Remarks

从Bayesian的观点看，$a=ln(posterior\ odds)$。
对于多分类问题，\begin{equation}p(C_k|x)=\frac{p(x|C_k)p(C_k)}{\sum_jp(x|C_j)p(C_j)}=\frac{exp(a_k)}{\sum_jexp(a_j)}\end{equation}其中$a_k=lnp(x|C_k)p(C_k)$。上式又被称为normalized exponential和softmax function。

多元正态建模

为了得到$p(C_k|x)$，要对$p(x|C_k)$和$p(C_k)$进行建模。假设$x$在给定$C_k$的情况下是一个多元正态分布。

\begin{equation}p(x|C_k)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\left\{-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)\right\}\end{equation}

可以得到

\begin{equation}p(C_1|x)=\sigma(w^Tx+\omega_0)\end{equation}

\begin{equation}w=\Sigma^{-1}(\mu_1-\mu_2)\end{equation}

\begin{equation}\omega_0=-\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2+ln\frac{p(C_1)}{p(C_2)}\end{equation}

Remarks

得到的decision boundary，$p(C_1|x)=p(C_2|x)$是关于$x$的线性函数，因为假设$C_1$和$C_2$下$x$有相同的协方差矩阵，二次项可以互相抵消。

极大似然估计

下面考虑参数$\left(\mu_1,\mu_2,\Sigma,p(C_1),p(C_2)\right)$的估计问题。假设我们有一个数据集$\left\{x_n,t_n\right\}$，$n=1,2,\ldots,N$，$t_n=1$表示$x_n$属于$C_1$，$t_n=0$表示$x_n$属于$C_2$。令$p(C_1)=\pi$，$p(C_2)=1-\pi$。则对于属于$C_1$的$x_n$，有\begin{equation}p(x_n,C_1)=\pi\mathcal{N}(x_n|\mu_1,\Sigma)\end{equation}

似然函数即\begin{equation}\label{likelihood}p(t|\pi,\mu_1,\mu_2,\Sigma)=\prod_{n=1}^{N}\left[\pi\mathcal{N}(x_n|\mu_1,\Sigma)\right]^{t_n}\left[(1-\pi)\mathcal{N}(x_n|\mu_2,\Sigma)\right]^{1-t_n}\end{equation}

令$\sum_{n=1}^Nt_n=N_1$（正样本个数），$\sum_{n=1}^N(1-t_n)=N_2$（负样本个数），容易得到$\pi$的极大似然估计为$\pi=\frac{N_1}{N_1+N_2}$。

对$\mu_1$，$\mu_2$，$\Sigma$求导，可得\begin{equation}\mu_1=\frac{1}{N_1}\sum_{n=1}^{N}t_nx_n\end{equation}

\begin{equation}\mu_2=\frac{1}{N_2}\sum_{n=1}^{N}(1-t_n)x_n\end{equation}

\begin{equation}S=\frac{N_1}{N}S_1+\frac{N_2}{N}S_2\end{equation}

\begin{equation}S_1=\frac{1}{N_1}\sum_{n\in C_1}(x_n-\mu_1)(x_n-\mu_1)^T\end{equation}

\begin{equation}S_2=\frac{1}{N_2}\sum_{n\in C_2}(x_n-\mu_2)(x_n-\mu_2)^T\end{equation}

Remarks

在$\eqref{likelihood}$中对$\mu_1$和$\mu_2$求导很容易得到其MLE。
$\Sigma$的MLE推导需要一些矩阵求导的技巧。对$\eqref{likelihood}$取对数后和$\Sigma$有关的项即\begin{equation}-\frac{N}{2}ln|\Sigma|-\frac{1}{2}\sum_{n=1}^{N}t_n(x_n-\mu_1)^T\Sigma^{-1}(x_n-\mu_1)-\frac{1}{2}\sum_{n=1}^{N}(1-t_n)(x_n-\mu_2)^T\Sigma^{-1}(x_n-\mu_2)\end{equation} 利用$trace(ABC)=trace(BCA)$，后面两项即\begin{equation}-\frac{1}{2}trace\left(\sum_{n=1}^{N}t_n\Sigma^{-1}(x_n-\mu_1)(x_n-\mu_1)^T+\sum_{n=1}^{N}(1-t_n)\Sigma^{-1}(x_n-\mu_2)(x_n-\mu_2)^T\right)\\=-\frac{N}{2}trace\left(\Sigma^{-1}S\right)\end{equation} 下面的问题就是$ln|\Sigma|$和$trace\left(\Sigma^{-1}S\right)$的求导了。利用$\frac{\partial}{\partial A}trace(AB)=B^T$，$\frac{\partial}{\partial A}ln(|A|)=(A^{-1})^T$，考虑对$\Sigma^{-1}$求导（由于$ln|\Sigma|=-ln|\Sigma^{-1}|$）。

Reference

PRML，section 4.2

转载于:https://www.cnblogs.com/stat-cchen/archive/2013/02/22/2916570.html

weixin_30586085

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Classification–Probabilistic Generative Models

问题描述考虑二分类问题，\begin{equation}p(C_1|x)=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}=\frac{1}{1+exp(-a)}=\sigma(a)\end{equation}其中$a=ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$。$\sigma(a)$即为lo...
复制链接

扫一扫