概述，贝叶斯策略，最大似然估计

最新推荐文章于 2022-02-11 17:15:25 发布

weixin_30834783

最新推荐文章于 2022-02-11 17:15:25 发布

阅读量103

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/lancelot-vim/p/5478265.html

版权

概述，贝叶斯策略，最大似然估计

标签：模式分类

@author lancelot-vim

绪论

宽度和数量直方图：

宽度与数量直方图.png-138.7kB

光泽度和数量直方图：

光泽度与数量直方图.png-137.3kB

宽度-光泽度联合分类图：

宽度-光泽度联合分类.png-176.6kB

简单归纳：

从单一特征得到的分类一般不强
将单一特征组合起来成多特征分类能得到更强的分类器
分类器模型简单（如图中红色线条）会比较弱，分类器太强（如图中蓝色线条）可能会过分类
以上问题，可能会存在如果鲈鱼分错，可能不会有太大的问题，但反之可能造成很大的影响

问题:

如何选择特征
如何选择分类器
分类之后如何采取行动

处理方案流程图：

st=>start: 输入 (物理信号)
e=>end: 决策 (行为)
op1=>operation: 传感器 (输入信号，模拟信号、数字信号等)
op2=>operation: 预处理 (分割，组织，对单词、字母、图像去除背景等操作)
op3=>operation: 特征提取 (平移不变性、旋转不变性、尺度不变性，三维问题、遮挡问题、透视失真等）
op4=>operation: 分类 （同一类别特征值波动， 不同类别的差异，特征丢失）
op5=>operation: 后处理 （上下文信息改善分类，根据风险选择策略）

st->op1->op2->op3->op4->op5->e


----------

贝叶斯决策论

引言

条件概率密度与贝叶斯公式

条件概率密度与贝叶斯公式.png-90.5kB

$P(w_1) = \frac{2}{3} $, $P(w_2) = \frac{1}{3} $时的后验概率：

后验概率图.png-84kB

误差定义：

$$ p(error)=\left{
\begin{aligned}
p(w_{1}|x) & & x \in w_{2} \
p(w_{2}|x) & & x \notin w_{2} \
\end{aligned}
\right.
$$

总误差为： $ P(error) = \int_{-\infty}^{\infty} p(error,x)dx = \int_{-\infty}^{\infty} p(error|x)p(x)dx $

对 $ \forall x $, 若 $ p(error|x) $ 尽量小，那么 $ P(error) $就尽量小，所以令 $ p(error|x) = min[p(w_{1}|x), p(w_{2}|x)] $

连续特征的贝叶斯决策论

允许使用多于一个的特征
允许使用两种类别以上的情形
允许有其他行为而不仅仅只是判定类别
通过引入一个更一般的损失函数来代替误差概率

以下4个约定：

$ {w_1, w_2, w_3,... w_c} $ 表示c个类别(class)
$ {\alpha_1, \alpha_2, \alpha_3.... \alpha_a } $ 表示a中行动(action)
$\lambda(\alpha_i|w_j)$ 表示类别为$ w_j $，采取行为$\alpha_i$的损失
$\vec{x}$表示d维的特征

根据贝叶斯公式： $p(w_j|\vec{x}) = \frac{p(\vec{x} | w_j)p(w_j)}{p(\vec{x})}$

若观测到$\vec{x}_0$,采取行为$\alpha_i$，则损失为：$R(\alpha_i | \vec{x}0) = \sum{j=1}^{c}\lambda(\alpha_i
| w_j)p(w_j|\vec{x}_0)$

总损失为: $R = \int R(\alpha(\vec{x}) | \vec{x})P(\vec{x})d\vec{x} $
若选择$\alpha(\vec{x}）$使得：$R(\alpha_i | \vec{x})$对每个$\vec{x}$尽可能小，则风险函数最小化

对于二分类问题

约定：

$\alpha_1$ 对应于$w_1$
$\alpha_2$ 对应于$w_2$
$\lambda_{ij} = \lambda(\alpha_i | w_j)$ 表示损失

则损失函数方程为：
$$ \left{
\begin{aligned}
R(\alpha_1 | \vec{x}) = \lambda_{11}p(w_1|\vec{x}) + \lambda_{12}p(w_2|\vec{x})\
R(\alpha_2 | \vec{x}) = \lambda_{21}p(w_1|\vec{x}) + \lambda_{22}p(w_2|\vec{x})
\end{aligned}
\right.
$$

若$R(\alpha_1 | \vec{x}) < R(\alpha_2|\vec{x})$，即$(\lambda_{21} - \lambda_{11})p(w_1|\vec{x}) > (\lambda_{12} - \lambda_{22})p(w_2|\vec{x}) $ ，将该类别判为$w_1$

若$\lambda_{21} > \lambda_{11} $且 $\frac{p(\vec{x} | w_1)}{p(\vec{x} | w_2)} > \frac{\lambda_{12} - \lambda{22}}{\lambda_{21} - \lambda{11}}\frac{P(w_2)}{P(w_1)} = \theta$，将该类别判为$w_1$, 如下图
似然比图.png-75.2kB

极小化极大原则

总损失：

$R = \int_{R1}[\lambda_{11}p(\vec{x}|w_1)P(w_1) + \lambda_{12}p(\vec{x}|w_2)P(w_2)]d\vec{x} \
\qquad + \int_{R_2}[\lambda_{21}p(\vec{x}|w_1)P(w_1) + \lambda_{22}p(\vec{x}|w_2)P(w_2)]d\vec{x}$

由于$P(w_2) = 1 - P(w_1)$, $\int_{R_1} = 1 - \int_{R_2}$得：

$R[P(w_1)] = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} + \ \qquad \qquad \quad P(w_1)[(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x}]$

令$(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = 0$

可得$R_1$,$R_2$，以及极小化极大误差：$R_{mm} = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = \lambda_{11} + (\lambda_{21} - \lambda_{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} $

极小化极大描述图：

分类器、判别函数和判定面

定义：

一般我们认为对于所有的$j \neq i$,有$g_i(\vec{x}) > g_j(\vec{x})$，则认为该特征向量$\vec{x}$的类型为$w_i$

一般流程如下图：

分类决策流程图.png-79.3kB

一般判决函数选择：

$g_i(\vec{x}) = P(w_i|\vec{x})=\frac{p(\vec{x}|w_i)P(w_i)}{\sum_{j=1}^cp(\vec{x}|w_j)P(w_j)} $
$g_i(\vec{x}) = p(\vec{x}|w_i)P(w_i) $
$g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$

正态判别函数

对于正态分布，通常我们取判别函数为$g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$，根据正态分布密度函数可得：
$g_i(\vec{x})=-\frac{1}{2}(\vec{x}-\vec{u}i)^T\Sigma^{-1}{i} (\vec{x}-\vec{u}_i) - \frac{d}{2}\ln 2\pi - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i)$

情况1 ： $\Sigma_i = \sigma^2I$

对此情况，$|\Sigma_i| = \sigma^{2d} $, $ \Sigma_i^{-1}=\frac{I}{\sigma^2}
$,由此简化判别函数为：

$g_i(\vec{x})=-\frac{||\vec{x}-\vec{u}i||}{2\sigma^2} + \ln P(w_i) = -\frac{1}{2\sigma^2}[\vec{x}^T\vec{x} - 2\vec{u_i}^T\vec{x} + \vec{u_i}^T\vec{u_i}] + \ln P(w_i)$
显然$\vec{x}^T\vec{x}$对所有的i是相等的，所以可以简化$g_i$为线性判别函数:$g_i(\vec{x}) = \vec{w_i}^T\vec{x} + w{i0}$

其中$\vec{w_i} = \frac{1}{\sigma^2}\vec{u_i}$, $w_{i0} = \frac{-1}{2\sigma^2}\vec{u}_i^T\vec{u}_i + \ln P(w_i)$

对于$i \neq j $,令$g_i = g_j$,得：$\vec{w}^T(\vec{x} - \vec{x}_0 ) = 0 $,其中$\vec{w} = \vec{u}_i- \vec{u}_j ,\vec{x}_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j) - \frac{\sigma^2}{||\vec{u}_i - \vec{u}_j||}\ln \frac{P(w_i)}{P(w_j)}(\vec{u}_i - \vec{u}_j)$

由$\vec{w}$可见，判别面为数据的法平面，当$P(w_i) = P(w_j) $时，正好是中垂面

情形一示意图.png-50.6kB

情况2 ： $\Sigma_i = \Sigma$

判别函数可重写为： $g_i(\vec{x}) = -\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_i(\vec{x}- \vec{u}_i) + \ln P(w_i)$

由同样的方法可得：
$\vec{w} = \Sigma^{-1}(\vec{u}_i - \vec{u}_i), x_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j)-\frac{\ln [P(w_i)]/P(w_j)]}{(\vec{u}_i - \vec{u}_j)^T\Sigma^{-1}(\vec{u}_i - \vec{u}_j)}(\vec{u}_i-\vec{u}_j) $

由$\vec{w}$可见，判别面为数据马氏距离的法平面，当$P(w_i) = P(w_j) $时，正好是马氏距离中垂面

最大似然估计

假设每个分类有数据集$D_1, D_2 ... D_c$的样本分别都是根据独立同分布的$p(\vec{x}|w_j)$抽取的，概率分布形式已知，但参数未定，约定未知参数符号为$\vec{\theta}_j $,那么可以写出最大似然函数：$L(D_j|\vec{\theta}j) = \Pi{k=1}^np(\vec{x}_k | \vec{\theta}_j)$

我们认为发生的事情为是概率最大的事，所以目标为求得使得$L(D_j|\vec{\theta}_j)) $最大的$\vec{\theta}_j$, 一般情况，为了计算方便，我们使用似然函数的对数函数即$l(\vec{\theta}_j) = \ln L $

最大似然估计示意图.png-96.2kB

高斯解

$u$未知：$\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k $
$u,\Sigma$未知：$\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}k , \hat{\Sigma} = \frac{1}{n}\sum{k = 1}^n(\vec{x}_k-\hat{u})(\vec{x}_k-\hat{u})^T$

转载于:https://www.cnblogs.com/lancelot-vim/p/5478265.html