错误率的计算、离散概率模型下的统计决策举例

最新推荐文章于 2024-06-28 01:29:51 发布

max_lfy99

最新推荐文章于 2024-06-28 01:29:51 发布

阅读量3.3k

点赞数

文章标签：机器学习 python

本文链接：https://blog.csdn.net/laofoye99/article/details/126696311

版权

2.6 错误率的计算

错误率反映了分类问题固有复杂性的程度
在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣
通常是以错误率大小作为比较方案的标准
$P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96)$
实际中，按理论公式计算错误率很困难

由于错误率在模式识别中的重要性及计算上的复杂性，因此在处理实际问题时的三种方法：

按理论公式计算
计算错误率上界
实验估计

2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算

在最小错误率贝叶斯决策中：
$h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)}，则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases}$
因此 $h (x)$ 是随机变量，记分布密度函数为 $p(h|\omega_1)$ 。
(2-96)可表示为：
$P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97)$
其中
$t=\ln \dfrac{P(\omega_1)}{P(\omega_2)}$

这里和 Neyman-Pearson 决策里的似然比密度函数 $p(l|\omega_2)$ 一样，是将变量 $x$ 换成了 $h$ 因此积分的区域也发生了相应的变化。

考虑在正态分布时的情况，决策规则可以写成：
$h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100)$
如果协方差矩阵相等 $\Sigma_1=\Sigma_2=\Sigma$ 时，决策规则可简化为：
$h(x)=(\mu_2-\mu_1)^T\Sigma^{-1}x+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)\lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-101)$
因此（2-101）可看成是对 $x$ 的各分量作线性组合 $\alpha^Tx$ ，再平移，其中 $\alpha^T=(\mu_2-\mu_1)^T\Sigma^{-1}$ 。对于 $p(h|\omega_1)$ ，可以计算出决定一维正态分布的参数均值 $\eta_1$ 及方差 $\sigma_1^2$ ：
$\eta_1=E[h(x)|\omega_1]=(\mu_2-\mu_1)^T\Sigma^{-1}\mu_1+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2) \newline =-\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \quad(2-102)$
令
$\eta= \dfrac{1}{2}[(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)]$
则
$\eta_1=-\eta \newline \sigma_1^2=E\{ [h(x)-\eta]^2|\omega_1\} =(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=2\eta \quad(2-103)$
同样的可以得出 $p(h|\omega_2)$ 的参数均值 $\eta$ 及方差 $\sigma_2^2$ ：
$\eta_2=\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=\eta \quad(2-104) \newline \sigma_2^2=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) = 2\eta \quad(2-105)$
因此，可以求出 $P_1(e)$ 与 $P_2(e)$ ：
$P_1(e)=\int_t^{+\infin}p(h|\omega_1)dh \newline =\int_t^{+\infin}\dfrac{1}{\sqrt{(2\pi)}\sigma} \exp\{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}dh \newline =\int_t^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}d(\dfrac{h+\eta}{\sigma}) \newline =\int_{\dfrac{t+\eta}{\sigma}}^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-106) \newline P_2(e)=\int_{-\infin}^t p(h|\omega_2)dh \newline =\int_{-\infin}^t(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h-\eta}{\sigma})^2\}d(\dfrac{h-\eta}{\sigma}) \newline =\int_{-\infin}^{\dfrac{t-\eta}{\sigma}}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-107)$
其中
$t=\ln \dfrac{P(\omega_1)}{P(\omega_2)},\sigma=\sqrt{2\eta}$

2.6.2 高维独立随机变量时错误率的估计

当 $d$ 维随机向量 $x$ 的分量间相互独立时， $x$ 的密度函数可表示为
$p(x|\omega_i)=\prod\limits_{l=1}^dp(x_l|\omega_i),i=1,2\quad(2-108)$
因此负对数似然比 $h (x)$ 为
$\sum\limits_{l=1}^dh(x_l)\quad(2-109)$
其中
$h(x_l)=-\ln\dfrac{p(x_l|\omega_1)}{p(x_l |\omega_2)}\quad(2-110)$
根据中心极限定理， $h (x)$ 的密度函数总是趋于正态分布。因此， $h (x)$ 的均值 $\eta_i$ 及方差 $\sigma_i^2$ 。
$\eta_i=E[h(x)|\omega_i]=E[\sum\limits_{l=1}^dh(x_l)|\omega_i]=\sum\limits_{l=1}^d\eta_{il} \quad(2-111) \newline \sigma_i^2=E\{[h(x)-\eta_i]^2|\omega_i\} \newline =E\{\sum\limits_{l=1}^d[h(x_l)-\eta_{il}]^2+\sum_{\substack{l,j=1\\ l{=}\mathllap{/\,}j}}^d[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \newline =\sum\limits_{l=1}^dE\{[h(x_l)-\eta_{il}]^2|\omega_i\}+\sum_{\substack{l,j=1\\ l \not=j}}^dE\{[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \quad(2-112)$
根据独立性假设，第二项必定为零，所以方差可写为
$\sigma_i^2= \sum\limits_{l=1}^d \sigma_{il}^2 \quad(2-113)$
需要注意的是，这种计算必须在维数 $d$ 较大时使用。

2.7 离散概率模型下的统计决策举例

采用基于马尔可夫模型来预测或确定CpG岛。如果第 $i$ 时刻上的取值依赖于且仅依赖于第 $i - 1$ 时刻的取值，状态转移矩阵中行表示前一时刻的取值，列表示当前时刻的取值。
$P(x_i|x_{i−1},x_{i−2},⋯,x_1)=P(x_i|x_{i−1}) \quad(2-114) \newline a_{st}=P(x_i=t|x_{i−1}=s) \quad(2-115) \newline P(x)≜P(x_1,x_2,⋯,x_i)=P(x_1)\prod\limits_{i=2}^L a_{x_{i−1}}a_{x_i} \quad(2-116)$

状态转移矩阵：
状态转移图：

离散变量情况下思路与连续变量类似。如果知道两类的状态转移矩阵，那么对于一个系列样本，我们就可以用式（2-116）分别计算每一类模型下观察到该特定序列的可能性或似然度 $P(x|\omega_1)$ ，用同样的似然比来进行类别判断。把 CpG 岛的一类记作 “+”，马尔可夫转移概率记作 $a_{x_{i-1}x_i}^+$ ；把非 CpG 岛的一类记作 “-” ，非 CpG 岛情况下的马尔可夫转移概率记作 $a_{x_{i-1}x_i}^-$ ，为了方便处理，采用对数似然比进行判别，这一比值通常又被叫做对数几率比。
$S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\log\dfrac{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^+}{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-} \quad(2-117)$
假设我们已经收集了充分的、有代表性的一些 CpG 岛序列片段和一些非 CpG 岛序列片段，统计在所有位置上出现 A、C、G、T 的次数，再统计在每个 A、C、G、T 后面出现 A、C、G、T 的次数，然后用 $a_{st}^+=\dfrac{c_{st}^+}{\sum_{t'}c_{st'}^+}$ 和 $a_{st}^-=\dfrac{c_{st}^-}{\sum_{t'}c_{st'}^-}$ 来分别估计两类的状态转移概率，其中， $c_{st}^+$ 表示 CpG 岛类中从某状态 $s$ 转移到状态 $t$ 的出现次数， $\sum_{t'}c_{st'}^+$ 表示对 $s$ 后所有可能出现的状态次数求和； $c_{st}^-$ 表示在非 CpG 岛上同样的量。

CpG 岛与非 CpG 岛状态转移矩阵

即是求图中两个矩阵的相应单元的比值，因此可将式（2-117）变成
$S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L\beta_{x_{i-1}x_i} \quad(2-118)$
其中， $\beta_{st}$ 为相应的 $a_{st}^+$ 与 $a_{st}^-$ 比值的对数（以2为底），计算出对数自然比矩阵。

最后按照适当的阈值进行决策。