Classification–Probabilistic Generative Models

问题描述

考虑二分类问题,

\begin{equation}p(C_1|x)=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}=\frac{1}{1+exp(-a)}=\sigma(a)\end{equation}

其中$a=ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$。$\sigma(a)$即为logistic sigmoid function,而且有$\sigma(-a)=1-\sigma(a)$,$a=ln(\frac{\sigma}{1-\sigma})$,后者被称为logit function。

Remarks
  1. 从Bayesian的观点看,$a=ln(posterior\ odds)$。
  2. 对于多分类问题,\begin{equation}p(C_k|x)=\frac{p(x|C_k)p(C_k)}{\sum_jp(x|C_j)p(C_j)}=\frac{exp(a_k)}{\sum_jexp(a_j)}\end{equation}其中$a_k=lnp(x|C_k)p(C_k)$。上式又被称为normalized exponentialsoftmax function

多元正态建模

为了得到$p(C_k|x)$,要对$p(x|C_k)$和$p(C_k)$进行建模。假设$x$在给定$C_k$的情况下是一个多元正态分布。

\begin{equation}p(x|C_k)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\left\{-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)\right\}\end{equation}

可以得到

\begin{equation}p(C_1|x)=\sigma(w^Tx+\omega_0)\end{equation}

\begin{equation}w=\Sigma^{-1}(\mu_1-\mu_2)\end{equation}

\begin{equation}\omega_0=-\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2+ln\frac{p(C_1)}{p(C_2)}\end{equation} 

Remarks
  1. 得到的decision boundary,$p(C_1|x)=p(C_2|x)$是关于$x$的线性函数,因为假设$C_1$和$C_2$下$x$有相同的协方差矩阵,二次项可以互相抵消。

极大似然估计

下面考虑参数$\left(\mu_1,\mu_2,\Sigma,p(C_1),p(C_2)\right)$的估计问题。假设我们有一个数据集$\left\{x_n,t_n\right\}$,$n=1,2,\ldots,N$,$t_n=1$表示$x_n$属于$C_1$,$t_n=0$表示$x_n$属于$C_2$。令$p(C_1)=\pi$,$p(C_2)=1-\pi$。则对于属于$C_1$的$x_n$,有\begin{equation}p(x_n,C_1)=\pi\mathcal{N}(x_n|\mu_1,\Sigma)\end{equation}

似然函数即\begin{equation}\label{likelihood}p(t|\pi,\mu_1,\mu_2,\Sigma)=\prod_{n=1}^{N}\left[\pi\mathcal{N}(x_n|\mu_1,\Sigma)\right]^{t_n}\left[(1-\pi)\mathcal{N}(x_n|\mu_2,\Sigma)\right]^{1-t_n}\end{equation}

令$\sum_{n=1}^Nt_n=N_1$(正样本个数),$\sum_{n=1}^N(1-t_n)=N_2$(负样本个数),容易得到$\pi$的极大似然估计为$\pi=\frac{N_1}{N_1+N_2}$。

对$\mu_1$,$\mu_2$,$\Sigma$求导,可得\begin{equation}\mu_1=\frac{1}{N_1}\sum_{n=1}^{N}t_nx_n\end{equation}

\begin{equation}\mu_2=\frac{1}{N_2}\sum_{n=1}^{N}(1-t_n)x_n\end{equation}

\begin{equation}S=\frac{N_1}{N}S_1+\frac{N_2}{N}S_2\end{equation}

\begin{equation}S_1=\frac{1}{N_1}\sum_{n\in C_1}(x_n-\mu_1)(x_n-\mu_1)^T\end{equation}

\begin{equation}S_2=\frac{1}{N_2}\sum_{n\in C_2}(x_n-\mu_2)(x_n-\mu_2)^T\end{equation}

Remarks
  1. 在$\eqref{likelihood}$中对$\mu_1$和$\mu_2$求导很容易得到其MLE。
  2. $\Sigma$的MLE推导需要一些矩阵求导的技巧。对$\eqref{likelihood}$取对数后和$\Sigma$有关的项即\begin{equation}-\frac{N}{2}ln|\Sigma|-\frac{1}{2}\sum_{n=1}^{N}t_n(x_n-\mu_1)^T\Sigma^{-1}(x_n-\mu_1)-\frac{1}{2}\sum_{n=1}^{N}(1-t_n)(x_n-\mu_2)^T\Sigma^{-1}(x_n-\mu_2)\end{equation} 利用$trace(ABC)=trace(BCA)$,后面两项即\begin{equation}-\frac{1}{2}trace\left(\sum_{n=1}^{N}t_n\Sigma^{-1}(x_n-\mu_1)(x_n-\mu_1)^T+\sum_{n=1}^{N}(1-t_n)\Sigma^{-1}(x_n-\mu_2)(x_n-\mu_2)^T\right)\\=-\frac{N}{2}trace\left(\Sigma^{-1}S\right)\end{equation} 下面的问题就是$ln|\Sigma|$和$trace\left(\Sigma^{-1}S\right)$的求导了。利用$\frac{\partial}{\partial A}trace(AB)=B^T$,$\frac{\partial}{\partial A}ln(|A|)=(A^{-1})^T$,考虑对$\Sigma^{-1}$求导(由于$ln|\Sigma|=-ln|\Sigma^{-1}|$)。

Reference

  1. PRML,section 4.2

 

转载于:https://www.cnblogs.com/stat-cchen/archive/2013/02/22/2916570.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值