1.贝叶斯决策论(Bayesian decision theory)
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,它考虑如何基于这些概率和误判损失来选择最优的类别标记。
如:设有N种可能的标记,即Y=C1,C2,……Cn,则基于后验概率P(Ci|X)可获得将样本X分类为Ci所产生的期望损失(expected loss)也称为样本X上的"条件风险"(Conditional risk):
其中λ ij是将一个真实标记为Cj标记成为Ci产生的损失。
我们的目的是寻找一个方法使得条件风险最小化。为最小化总体风险,只需要在每个样本上选择哪个能使得条件风险R(C|X)最小化的类别标记,即:
此时,h*称为贝叶斯最优分类器(Bayes optimal classifier ),与之对应的总体风险R(h*)称为贝叶斯风险(Bayes risk).这就是贝叶斯判定准则(Bayes Decision Rule)
若目标是最小化分类错误率,则误判损失λ ij可写为:
此时条件风险为:
所以,最小化分类错误率的贝叶斯最优分类器为:
(1.11)
也就是对每个样本,选择能使后验概率P(c|X)最大的类别标记。
通常情况下P(c|X)很难直接获得,根据我们已知的条件概率知识对(1)公式进行化简得:
(1.2)
其中P(c)为先验概率,P(X|c)为样本x关于类别c的条件概率。这就是后验概率最大化准则。
这样一来,根据期望风险最小化原则就可以得到后验概率最大化准则。
某些情况下,可假定Y中每个假设有相同的先验概率,这样(1.2)式就可以进一步简化如下:(1.3)
综合以上讨论,当前求最小化分类错误率的问题转化成了求解先验概率P(c)和条件概率(也称似然概率)P(x|c)P(x|c)的估计问题。对于先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定理,当训练集包含充足的独立同分布样本时,P(c)可以通过各类样本出现的频率进行估计。整个问题就变成了求解条件概率P(x|c)
2. 极大似然估计
极大似然轨迹源自于频率学派,他们认为参数虽然未知,但却是客观存在的规定值,因此,可以通过优化似然函数等准则确定参数数值。本节使用极大似然估计对条件概率进行估计。
令DcDc表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,则参数θθ(θθ是唯一确定条件概率P(x|c)P(x|c)的参数向量)对数据集DcDc的似然函数是
对2.1求对数似然函数