从最基本的贝叶斯公式开始:
假定样本是由d维实数特征组成的,即
;要研究的类别有c个,记作
,
。
那么表示各类中样本的分布密度,即类条件密度。表示为在
这个类别的条件下,出现特征
的概率。同理可以知道后验概率
表示在特征
出现的情况下,是类别
的概率(
)。
我们所做的决策就是对于某个未知样本,判断它属于哪一类
。
做出的决策不一定都是正确的,对于只有两钟类型的问题(和
),在样本
上错误的概率为
错误率定义为所有服从同样分布的独立样本上错误概率的期望,即
这个式子我第一次看有点不理解,这里在多解释一下。举个例子,在只有两种类型的问题(和
)中,
可以看作是关于特征
的函数,为了求得整体的错误率,需要对
在
上依据取
的概率求积分。(当然,如果有好好学习概率论,这里应该不难理解了)
有错误率,反之便是正确率,通常记作,显然有
。