记得两年前刚来实验室的时候,导师就让我看Duda的《模式分类》(第二版,李宏东等译),我们组之前的师兄师姐已经以讨论会的形式读过了,所以我只能和另一个刚来的同学自己啃。当时年轻气盛,也不管章节带不带星,就往下读,基本上能大概看懂的公式也都推了一下,虽然算是初步建立起了一个概念,可是由于过于抠细节,上层的脉络都不是很清楚,以至于看了一些很简单的题目都不知道从何下手。
这学期因为选了一门研究生的《模式识别》课,所以重温了其中的内容,这次我跳过所有带星的章节只对最基本的概念和公式进行理解,发现算是把书中前面的脉络大致搞清楚了,所以想写出来和大家分享一下(我基本上只分析不带星号的章节)。
第二章
第二章一上来就利用贝叶斯公式(如下)给出了分类准则。给定一个观测值x,我们把它分为后验概率最大的那一类。
由于先验概率一般是假设已知或者用简单的估计可以给出,于是我们的所有重点内容都放在了求类条件概率密度身上,这也是后面两章的核心内容。这里面有个小细节,公式中先验概率和后验概率都是用大写的P表示,而类条件概率密度和x本身的概率密度都是用小写的p来表示,应该是用来区分概率值和概率密度的差别。给出了公式之后,第二章后面稍作了扩展和解释,引入了风险和误差率的概念。
风险:这一