概述，贝叶斯策略，最大似然估计

最新推荐文章于 2022-09-09 18:13:38 发布

lancelot_vim

最新推荐文章于 2022-09-09 18:13:38 发布

阅读量1.4k

点赞数

分类专栏：模式分类文章标签：模式分类深度学习机器学习

本文链接：https://blog.csdn.net/lancelot_vim/article/details/51371615

版权

模式分类专栏收录该内容

10 篇文章 0 订阅

订阅专栏

概述，贝叶斯策略，最大似然估计

标签：模式分类

@author lancelot-vim

绪论

宽度和数量直方图：

宽度与数量直方图.png-138.7kB

光泽度和数量直方图：

光泽度与数量直方图.png-137.3kB

宽度-光泽度联合分类图：

宽度-光泽度联合分类.png-176.6kB

简单归纳：

从单一特征得到的分类一般不强
将单一特征组合起来成多特征分类能得到更强的分类器
分类器模型简单（如图中红色线条）会比较弱，分类器太强（如图中蓝色线条）可能会过分类
以上问题，可能会存在如果鲈鱼分错，可能不会有太大的问题，但反之可能造成很大的影响

问题:

如何选择特征
如何选择分类器
分类之后如何采取行动

处理方案流程图：

贝叶斯决策论

引言

条件概率密度与贝叶斯公式

条件概率密度与贝叶斯公式.png-90.5kB

$P(w_1) = \frac{2}{3}$ , $P(w_2) = \frac{1}{3}$ 时的后验概率：

后验概率图.png-84kB

误差定义：

p (e r r o r) = {p (w 1 | x) p (w 2 | x) x \in w 2 x \notin w 2

$p(error)=\left\{ \begin{aligned} p(w_{1}|x) & & x \in w_{2} \\ p(w_{2}|x) & & x \notin w_{2} \\ \end{aligned} \right.$

总误差为： $P(error) = \int_{-\infty}^{\infty} p(error,x)dx = \int_{-\infty}^{\infty} p(error|x)p(x)dx$

对 $\forall x$ , 若 $p(error|x)$ 尽量小，那么 $P(error)$ 就尽量小，所以令 $p(error|x) = min[p(w_{1}|x), p(w_{2}|x)]$

连续特征的贝叶斯决策论

允许使用多于一个的特征
允许使用两种类别以上的情形
允许有其他行为而不仅仅只是判定类别
通过引入一个更一般的损失函数来代替误差概率

以下4个约定：
1. $\{w_1, w_2, w_3,... w_c\}$ 表示c个类别(class)
2. $\{\alpha_1, \alpha_2, \alpha_3.... \alpha_a \}$ 表示a中行动(action)
3. $\lambda(\alpha_i|w_j)$ 表示类别为 $w_j$ ，采取行为 $\alpha_i$ 的损失
4. $\vec{x}$ 表示d维的特征

根据贝叶斯公式： $p(w_j|\vec{x}) = \frac{p(\vec{x} | w_j)p(w_j)}{p(\vec{x})}$

若观测到 $\vec{x}_0$ ,采取行为 $\alpha_i$ ，则损失为： $R( \alpha_i | \vec{x}_0)$ = $\sum_{j=1}^{c}\lambda(\alpha_i | w_j)p(w_j|\vec{x}_0)$

总损失为: $R = \int R(\alpha(\vec{x}) | \vec{x})P(\vec{x})d\vec{x}$
若选择 $\alpha(\vec{x}）$ 使得： $R(\alpha_i | \vec{x})$ 对每个 $\vec{x}$ 尽可能小，则风险函数最小化

对于二分类问题

约定：
1. $\alpha_1$ 对应于 $w_1$
2. $\alpha_2$ 对应于 $w_2$
3. $\lambda_{ij} = \lambda(\alpha_i | w_j)$ 表示损失

则损失函数方程为：

{R (α 1 | x ⃗) = λ 11 p (w 1 | x ⃗) + λ 12 p (w 2 | x ⃗) R (α 2 | x ⃗) = λ 21 p (w 1 | x ⃗) + λ 22 p (w 2 | x ⃗)

$\left\{ \begin{aligned} R(\alpha_1 | \vec{x}) = \lambda_{11}p(w_1|\vec{x}) + \lambda_{12}p(w_2|\vec{x})\\ R(\alpha_2 | \vec{x}) = \lambda_{21}p(w_1|\vec{x}) + \lambda_{22}p(w_2|\vec{x}) \end{aligned} \right.$

若 $R(\alpha_1 | \vec{x}) < R(\alpha_2|\vec{x})$ ，即 $(\lambda_{21} - \lambda_{11})p(w_1|\vec{x}) > (\lambda_{12} - \lambda_{22})p(w_2|\vec{x})$ ，将该类别判为 $w_1$

若 $\lambda_{21} > \lambda_{11}$ 且 $\frac{p(\vec{x} | w_1)}{p(\vec{x} | w_2)} > \frac{\lambda_{12} - \lambda{22}}{\lambda_{21} - \lambda{11}}\frac{P(w_2)}{P(w_1)} = \theta$ ，将该类别判为 $w_1$ , 如下图
似然比图.png-75.2kB

极小化极大原则

总损失：

$R = \int_{R1}[\lambda_{11}p(\vec{x}|w_1)P(w_1) + \lambda_{12}p(\vec{x}|w_2)P(w_2)]d\vec{x} \ \qquad + \int_{R_2}[\lambda_{21}p(\vec{x}|w_1)P(w_1) + \lambda_{22}p(\vec{x}|w_2)P(w_2)]d\vec{x}$

由于 $P(w_2) = 1 - P(w_1)$ , $\int_{R_1} = 1 - \int_{R_2}$ 得：

$R[P(w_1)] = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} + \\ \qquad \qquad \quad P(w_1)[(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x}]$

令 $(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = 0$

可得 $R_1$ , $R_2$ ，以及极小化极大误差： $R_{mm} = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = \lambda_{11} + (\lambda_{21} - \lambda_{11})\int_{R2}p(\vec{x}|w_1)d\vec{x}$

极小化极大描述图：

分类器、判别函数和判定面

定义：

一般我们认为对于所有的 $j \neq i$ ,有 $g_i(\vec{x}) > g_j(\vec{x})$ ，则认为该特征向量 $\vec{x}$ 的类型为 $w_i$

一般流程如下图：

分类决策流程图.png-79.3kB

一般判决函数选择：

$g_i(\vec{x}) = P(w_i|\vec{x})=\frac{p(\vec{x}|w_i)P(w_i)}{\sum_{j=1}^cp(\vec{x}|w_j)P(w_j)}$
$g_i(\vec{x}) = p(\vec{x}|w_i)P(w_i)$
$g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$

正态判别函数

对于正态分布，通常我们取判别函数为 $g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$ ，根据正态分布密度函数可得：
$g_i(\vec{x})=-\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_{i} (\vec{x}-\vec{u}_i) - \frac{d}{2}\ln 2\pi - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i)$

情况1 ： $\Sigma_i = \sigma^2I$

对此情况， $|\Sigma_i| = \sigma^{2d}$ , $\Sigma_i^{-1}=\frac{I}{\sigma^2}$ ,由此简化判别函数为：

$g_i(\vec{x})=-\frac{||\vec{x}-\vec{u}_i||}{2\sigma^2} + \ln P(w_i) = -\frac{1}{2\sigma^2}[\vec{x}^T\vec{x} - 2\vec{u_i}^T\vec{x} + \vec{u_i}^T\vec{u_i}] + \ln P(w_i)$
显然 $\vec{x}^T\vec{x}$ 对所有的i是相等的，所以可以简化 $g_i$ 为线性判别函数: $g_i(\vec{x}) = \vec{w_i}^T\vec{x} + w_{i0}$

其中 $\vec{w_i} = \frac{1}{\sigma^2}\vec{u_i}$ , $w_{i0} = \frac{-1}{2\sigma^2}\vec{u}_i^T\vec{u}_i + \ln P(w_i)$

对于 $i \neq j$ ,令 $g_i = g_j$ ,得： $\vec{w}^T(\vec{x} - \vec{x}_0 ) = 0$ ,其中 $\vec{w} = \vec{u}_i- \vec{u}_j ,\vec{x}_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j) - \frac{\sigma^2}{||\vec{u}_i - \vec{u}_j||}\ln \frac{P(w_i)}{P(w_j)}(\vec{u}_i - \vec{u}_j)$

由 $\vec{w}$ 可见，判别面为数据的法平面，当 $P(w_i) = P(w_j)$ 时，正好是中垂面

情形一示意图.png-50.6kB

情况2 ： $\Sigma_i = \Sigma$

判别函数可重写为： $g_i(\vec{x}) = -\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_i(\vec{x}- \vec{u}_i) + \ln P(w_i)$

由同样的方法可得：
$\vec{w} = \Sigma^{-1}(\vec{u}_i - \vec{u}_i), x_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j)-\frac{\ln [P(w_i)]/P(w_j)]}{(\vec{u}_i - \vec{u}_j)^T\Sigma^{-1}(\vec{u}_i - \vec{u}_j)}(\vec{u}_i-\vec{u}_j)$

由 $\vec{w}$ 可见，判别面为数据马氏距离的法平面，当 $P(w_i) = P(w_j)$ 时，正好是马氏距离中垂面

最大似然估计

假设每个分类有数据集 $D_1, D_2 ... D_c$ 的样本分别都是根据独立同分布的 $p(\vec{x}|w_j)$ 抽取的，概率分布形式已知，但参数未定，约定未知参数符号为 $\vec{\theta}_j$ ,那么可以写出最大似然函数： $L(D_j|\vec{\theta}_j) = \Pi_{k=1}^np(\vec{x}_k | \vec{\theta}_j)$

我们认为发生的事情为是概率最大的事，所以目标为求得使得 $L(D_j|\vec{\theta}_j))$ 最大的 $\vec{\theta}_j$ , 一般情况，为了计算方便，我们使用似然函数的对数函数即 $l(\vec{\theta}_j) = \ln L$

最大似然估计示意图.png-96.2kB

高斯解

$u$ 未知： $\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k$
$u,\Sigma$ 未知： $\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k , \hat{\Sigma} = \frac{1}{n}\sum_{k = 1}^n(\vec{x}_k-\hat{u})(\vec{x}_k-\hat{u})^T$

lancelot_vim

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概述，贝叶斯策略，最大似然估计

概述，贝叶斯策略，最大似然估计标签：模式分类@author lancelot-vim绪论宽度和数量直方图：光泽度和数量直方图：宽度-光泽度联合分类图：简单归纳：从单一特征得到的分类一般不强将单一特征组合起来成多特征分类能得到更强的分类器分类器模型简单（如图中红色线条）会比较弱，分类器太强（如图中蓝色线条）可能会过分类以上问题，可能会存在如果鲈鱼分错，可能不会有太大的问题，但反之可能造成很大
复制链接

扫一扫