引子
出现原因:概率论是如何提供一个一致的数学框架来量化,计算不确定性。决策论,与概率论结合,可以让在模式识别中遇到不确定的情况的时候,做出最优的决定。
决策论的主题:在给定合适的概率下,做出最优的选择。
假设输入向量记做
x
,目标向量记做
贝叶斯定理中的任何一个量都可以由联合分布 p(x,Ck) 通过边缘化,或根据某个合适的变量条件化得到。 p(Ck) 是类 Ck 的先验概率, p(Ck|x) 是对应的后验概率。
目标:选择更大的后验概率,可以最小化分错 x 的可能性。
最小化误分率
决策区域
决策区域(decision regions):输入根据决策规则将输出空间切成的区域
决策边界
决策区域间的边界,称为决策边界(decision boundaries)或决策面(decision surfaces)。
误分率的表达
以2类为例,错误发生在把属于 C1 的分到了 C2 中,反之亦然。则发生错误的概率可以表达为:
为了最小化
p(mistake)
对于
x
的分类结果应该让公式中被积函数尽可能的小。形式化表述:最小化错误分类的概率,可以通过把
图示
- 两个类别的联合概率分布 p(x,Ck) 与 x 的关系,以及决策边界
x=x^ 。 x≥x^ 的值被分类为 C2 ,因此属于决策区域 R2 ,而 x<x^ 的值被分类为 C1 ,属于区域 R1 。错误出现在蓝色、绿色和红色区域。- 当我们改变决策区域的位置 x=x^ 时,绿色区域和蓝色区域的总面积是一个常数,而红色区域的面积发生改变。 x=x^ 的最优选择是 p(x,C1) 的曲线与 p(x,C2) 的曲线相交,对应于 x=x0 ,因为此时红色区域消失。
- 最小化错误分类率的决策规则,将 x 分配到具有最大的后验概率
p(Ck|x) 的区域中。
对于更一般的
K
类的情形,最大化正确率会稍微简单一些,即最大化:
当区域
Rk
的选择使得每个
x
的分类得到的
使用乘法规则
p(x,Ck)=p(Ck|x)p(x)
,因子
p(x)
对于所有项都相同,可以得到每个
x
都应该被分到有最大后验概率
最小化期望损失
最小化误分率有时候解决不了问题,因为不同子问题的误分率的重要程度不一样,因此要引入损失函数(loss function)或成本函数(cost function),可以形式化这样的问题。
损失函数是对所有可能的决策或动作所产生的损失采用一种统一的整体度量。
损失矩阵
假设新的值
x
,它的实际类别是
这个具体的损失矩阵表示对于正确的分类是不会产生损失的,对于误诊断为癌症时损失为1,误诊断为未患癌症时损失为1000。
最优解是最小化损失函数,损失函数依赖于未知的正确类别。给定输入向量
x
,对正确分类的不确定性由联合概率分布
平均损失可以用下面公式表达:
用乘法规则
p(x,Ck)=p(Ck|x)p(x)
来消除公共项
p(x)
。最后计算最小化损失期望的决策规则是:计算关于
x
能取得最小值的第
拒绝选项
为了避免在置信度低的区间做决策,要设置拒绝选项(reject option)
推断与决策
推断阶段(inference stage):使用训练数据学习
p(Ck|x)
的模型
决策阶段(decision stage):使用这些后验概率来对类别作最优的分类
决策问题三种方法
生成模型
首先,通过对每个类别
Ck
,独立的确定类别的条件密度
p(x|Ck)
来解决推断问题,还分别推断出类别的先验概率
p(Ck)
,然后使用贝叶斯定理:
来计算类别的后验概率 p(Ck|x) 。
得到后验概率后,使用决策论来确定每个新的输入 x 的类别。因为可以通过取样来合成输入空间的数据点,所以显式或隐式的对输入和输出进行建模的方法被称为生成模型(generative models)。
判别模型
首先,解决确定类别的后验密度
判别函数
能直接把输入
后验概率的意义
最小风险
损失矩阵的元素有被修改的问题,只使用判别准则,那么损失矩阵的任何改变都需要重新训练数据,来解决分类问题