正态分布时的统计决策

最新推荐文章于 2024-07-24 16:43:46 发布

max_lfy99

最新推荐文章于 2024-07-24 16:43:46 发布

阅读量553

点赞数 2

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/laofoye99/article/details/126696302

版权

2.5 正态分布时的统计决策

2.5.1 正态分布及其性质回顾

单变量正态分布

概率密度
$\dfrac {1} {\sqrt {2 \pi} \sigma} \exp \{{- \dfrac {1} {2}(\dfrac {x-\mu} {\sigma})^2}\} \quad(2-45) \newline \mu = E\{x \} = \int_{-\infin}^{+\infin}xp(x)dx \quad(2-46) \newline \sigma ^2 = \int_{-\infin}^{+\infin}(x-\mu)^2p(x)dx \quad(2-47)$

多元正态分布

概率密度
$\dfrac {1} {(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\{-\dfrac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\} \quad(2-48) \newline μ=E\{x\}\quad(2-49) \newline Σ=E\{(x−μ)(x−μ)^T\}\quad(2-50) \newline \gamma^2 = (x-\mu)^T\Sigma^{-1}(x-\mu)\quad(2-56)$
$\Sigma$ 是协方差矩阵，是对称阵，（2-56）称为由 $x$ 到 $\mu$ 的马氏距离的平方
性质

参数 $\mu$ 和 $\Sigma$ 决定分布
等密度点的轨迹为一超椭球面
不相关性等价于独立性
边缘分布、条件分布、线性变换、线性组合都有正态性

2.5.2 正态分布概率模型下的最小错误率贝叶斯决策

判别函数：
$g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)-\dfrac{d}{2}\ln{2\pi}-\dfrac{1}{2}\ln{|\Sigma_i|}+\ln P(\omega_i) \quad(2-66)$

决策面方程：
$g_i(x) = g_j(x)$
即
$-\dfrac{1}{2}[(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-(x-\mu_j)^T\Sigma_j^{-1}(x-\mu_j)]-\dfrac{1}{2}\ln\dfrac{|\Sigma_i|}{|\Sigma_j|}+\ln \dfrac{P(\omega_I)}{P(\omega_j)}=0\quad(2-67)$

第一种情况

$\Sigma_i=\sigma^2I,i=1,2,…,c$
$|\Sigma_i| = \sigma^{2d} \quad(2-69) \newline \Sigma_i^{-1} = \dfrac{1}{\sigma^2}I \quad(2-70)$
将（2-69）和（2-70）代入（2-66）得判别函数：
$g_i(x) = -\dfrac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}-\dfrac{d}{2}\ln 2\pi -\dfrac{1}{2}\ln{\sigma^{2d}}+\ln{P(\omega_i)} \quad(2-71)$
由于上式中第二、三项与类别 $i$ 无关，化简得：
$g_i(x) = -\dfrac{1}{2\sigma^2}(x-\mu_i)^T(x-\mu_i)+\ln{P(\omega_i)}=−\dfrac{1}{2σ^2}||x−\mu_i||^2+\ln p(\omega_i)\quad(2-72)$
式中
$(x-\mu_i)^T(x-\mu_i) = ||x-\mu_i||^2 = \sum\limits_{j=1}^d(x_j-\mu_{ij})^2, i = 1,…,c \quad(2-73)$
是又 $x$ 到 $\omega_i$ 的均值向量 $\mu_i$ 的欧式距离的平方。

先验概率不相等

$P(\omega_i)\mathrlap{\,/}{=}P(\omega_j)$
由于 $x^Tx$ 与 $i$ 无关，（2-72）可化简得判别函数：
$g_i(x)=\dfrac{\mu_i^T}{σ^2}x−\dfrac{1}{2σ^2}\mu_i^T \mu_i+\ln P(\omega_i) = w_i^Tx+\omega_{i0}\quad(2-75)$
其中
$w_i = \dfrac{1}{\sigma^2}\mu_i \quad(2-76) \newline \omega_{i0} = -\dfrac{1}{2\sigma^2}\mu_i^T\mu_i + \ln P(\omega_i) \quad(2-77)$
决策面方程
$w^T(x-x_0)=0 \quad(2-79)$
其中
$w=\mu_i-\mu_j \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\sigma^2}{||\mu_i-\mu_j||^2}\ln \dfrac{P(\omega_i)}{P(\omega_j)}(\mu_i-\mu_j) \quad(2-80)$

先验概率相等

$P(\omega_i)=P(\omega_j)$
（2-72）化简得判别函数：
$g_i(x)=−\dfrac{1}{2\sigma^2}(x−\mu_i)^T(x−\mu_i)=−\dfrac{1}{2σ^2}||x−\mu_i||^2$
此时 $x=\argmin\limits_{i=1,…,c}||x-\mu_i||^2$ 。即最小距离分类器。
最小距离分类器：
在这里插入图片描述

先验概率相等时，决策面为中垂线；当先验概率不相等时，决策面向先验概率小的方向偏移。

第二种情况

$\Sigma_i = \Sigma$
此时判别函数可以化简为：
$g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)+\ln P(\omega_i) \quad(2-81)$
忽略与 $i$ 无关的项得判别函数：
$g_i(x)=w_i^Tx+\omega_{i0} \quad(2-83)$
其中
$w_i=\Sigma^{-1}\mu_i \quad(2-84) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma^{-1}\mu_i+\ln P(\omega_i) \quad(2-85)$
决策面方程：
$w^T(x-x_0)=0 \quad(2-86)$
其中
$w=\Sigma^{-1}(\mu_i-\mu_j) \quad(2-87) \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\ln \dfrac{P(\omega_i)}{P(\omega_j)}}{(\mu_i-\mu_j)^T\Sigma^{-1}(\mu_i-\mu_j)}(\mu_i-\mu_j) \quad(2-88)$

先验概率相等

$P(\omega_i)=P(\omega_j)$
（2-88）可化简为：
$x_0=\dfrac{1}{2}(\mu_i+\mu_j) \quad(2-89)$
此时 $x_0$ 为 $\mu_i$ 与 $\mu_j$ 连线的中点，并且 $x=\argmin\gamma^2=\argmin (x-\mu_i)^T\Sigma^{-1}(x-\mu_i)$ ，即 $x$ 归于马氏距离平方最小的类别。

先验概率不相等

决策面向先验概率小的方向偏移

第三种情况：各类协方差矩阵不相等

判别函数：
$g_i(x)=-\dfrac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i)\newline =x^TW_ix+w_i^Tx+\omega_{i0} \quad(2-91)$
其中
$W_i=-\dfrac{1}{2}\Sigma_i^{-1} \quad(2-92) \newline w_i=\Sigma_i^{-1}\mu_i \quad(2-93) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma_i^{-1}\mu_i-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i) \quad(2-94)$
决策面方程：
$x^T(W_i-W_j)x+(w_i-w_j)^Tx+\omega_{i0}-\omega_{j0}=0 \quad(2-95)$