模式识别——统计决策方法——正态分布时的统计决策

KING BOB!!!

于 2023-10-08 17:58:48 发布

阅读量299

点赞数 1

文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/m0_62895602/article/details/133687306

版权

模式识别——统计决策方法——正态分布时的统计决策

正态分布性质回顾

单变量正态分布概率密度函数定义为

$p(x)=\frac{1}{\sqrt{2x}\sigma}exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\}$

多元正态分布的概率密度函数定义为

$p(x)=\frac{1}{(2\pi)^{\frac{d}{2}}\vert{{\sum\rvert}}^{\frac{1}{2}}}exp\{-\frac{1}{2}(x-\mu)^{T}{\sum}^{-1}(x-\mu)\}\\ 其中 \mu=E\{x\}, \sum=E\{(x-\mu)(x-\mu)^T\}$

正态分布下的最小错误率贝叶斯决策

根据前面最小错误率贝叶斯判别函数和决策面的有关公式，在正态分布下的概率 $p(x|w_1)\backsim(\mu, \sum)$ 我们可以得到新的判别函数（即正态分布下的后验概率）：
$g_i(x)=-\frac{1}{2}(x-\mu)^T{\sum_{i}}^{-1}(x-\mu)-\frac{d}{2}ln2\pi-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)$
决策面方程为 $g_i(x)=g_j(x)$

即
$-\frac{1}{2}[(x-\mu_i)^T{\sum}_{i}^{-1}(x-\mu_i)-(x-\mu_j)^T{\sum}_{j}^{-1}(x-\mu_j)]-\frac{1}{2}ln\frac{\vert{\sum}_{i}\rvert}{\vert{\sum}_{j}\rvert}+ln\frac{P(w_i)}{P(w_i)}=0$

特殊情况1： ${\sum}_{i}=\sigma^2I,i=1,2,...,c$

每类的协方差矩阵都相等，类内各特征间相互独立，且具有相等的方差

此时有：
$g_i(x)=-\frac{1}{2\sigma^2}(x-\mu_i)^T(x-\mu_i)+lnP(w_i)$
因为 $x^Tx$ 项与i无关，可以忽略，则判别函数为
$\begin{aligned} g_i(x)&=-\frac{1}{2\sigma^2}(-2\mu_i^Tx+\mu_i^T\mu_i)+lnP(w_i)\\ &=\frac{\mu_i^T}{\sigma^2}x-\frac{1}{2\sigma^2}\mu_i^T \mu_i+lnP(w_i))\\ &=w^Tx+w_{i0} \end{aligned}$
其中 $w=\frac{\mu_i}{\sigma^2},w_{i0}=-\frac{1}{2\sigma^2}\mu_i^T \mu_i+lnP(w_i))$

决策规则：
$若g_i(x)=max_ig_i(x)，则x\in{w_i}$
由该式可以看出，判别函数 $g_i(x)$ 是x的线性函数，因此称为线性分类器

特殊情况2： ${\sum}_{i}=\sum,i=1,2,...,c$

与情况1类似，各类的协方差矩阵都相同，但是各特征间不一定相互独立。从几何上看，相当于各类样本集中于以该均值 $\mu_i$ 为中心的同样大小和形状的超椭球内

其判别函数为
$\begin{aligned} g_i(x)&=-\frac{1}{\sum}(-2\mu_i^Tx+\mu_i^T\mu_i)+lnP(w_i)\\ &=\frac{\mu_i^T}{\sum}x-\frac{1}{2\sum}\mu_i^T \mu_i+lnP(w_i))\\ &=w^Tx+w_{i0} \end{aligned}$
其中 $w=\frac{\mu_i}{\sum},w_{i0}=-\frac{1}{2\sum}\mu_i^T \mu_i+lnP(w_i))$

特殊情况3：各类的协方差不相等

这是多元正态分布的一般情况，判别函数为：
$\begin{aligned} g_i(x)&=-\frac{1}{2}(x-\mu)^T{\sum_{i}}^{-1}(x-\mu)-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)\\ &=x^TW_ix+w_ix+w_{i0} \end{aligned}$
其中
$W_i=-\frac{1}{2}\sum^{-1}\\ w_i=\sum_i^{-1}\mu_i\\w_{i0}=-\frac{1}{2}\mu_i^T\sum_i^{-1}\mu_i-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)$