贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。
分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。
贝叶斯分类器的基础
贝叶斯公式
P ( H ∣ X ) = P ( X ∣ H ) P ( H ) P ( X ) P(H|X)=\frac{P(X|H)P(H)}{P(X)} P(H∣X)=P(X)P(X∣H)P(H)其中,X表示n个属性的测量描述;
H为某种假设,比如假设某观察值X属于某个特定的类别C;
P(X)则是X的先验概率, P(H)也是先验概率;
P(X|H)是类条件概率,也叫似然;
P(H|X)是后验概率,即在条件X下,H的后验概率;
对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到假设H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。
举个栗子,假设数据属性仅限于用教育背景和收入来描述顾客,而X是学历是硕士,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机。
- P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;
- P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;
- P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;
- P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。
模型表示
对每个样本 x x x选择能使后验概率 P ( c ∣ x ) P(c|x) P(c∣x)最大的类别标记:
(1) h ∗ ( x ) = a r g max c ∈ Y P ( c ∣ x ) = a r g max c ∈ Y P ( x ∣ c ) P ( c ) P ( x ) h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1 h∗(x)=argc∈Ymax
本文介绍了贝叶斯分类器的基本原理,包括贝叶斯公式和模型表示。重点讨论了朴素贝叶斯分类器,阐述了其基于属性条件独立性的假设,以及在实际应用中的优点和缺点。同时,提到了半朴素贝叶斯分类器作为对条件独立假设的改进,考虑了部分属性间的依赖关系。内容涉及垃圾邮件识别等实例。
最低0.47元/天 解锁文章
1277

被折叠的 条评论
为什么被折叠?



