+第四章 贝叶斯分类器
1. 简述朴素贝叶斯的优缺点.
答:
朴素贝叶斯的主要优点有:
- 算法比较简单,易于实现。
- 快速,易于训练。
- 朴素贝叶斯模型有稳定的分类效率。
- 对小规模的数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练。
- 对缺失数据不太敏感。
朴素贝叶斯的主要缺点有:
- 如果输入变量是相关的,则会出现问题。
- 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
- 通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
- 对输入数据的表达形式很敏感。
2. 试由下表的训练数据学习一个朴素贝叶斯分类器并确定 x=(2,S)T
的类标记y. 表中X(1) , X(2) 为特征,取值的集合分别为A1={1,2,3} , A2={S,M,L} , Y为类标记,Y∈C=1,-1.
3. 考虑下表中的数据集
(a) 估计条件概率P(A|+),P(B|+),P(C|+),P(A|-),P(B|-)和P(C|-).
(b) 根据(a)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号
(c) 使用m估计方法(p=1/2且m=4)估计条件概率
(d) 同(b),使用(c)中的条件概率
(e) 比较估计概率的两种方法。哪一种更好?为什么?
4. 给定如下图所示的一个贝叶斯网络
(a) 请写出x1,x2,…,x7 的联合概率分布
(b) x1 和x2 是否相互独立?
(c) x6 和 x7在给定 x4的条件下是否相互独立?
5. 下图给出了表中的数据集对应的贝叶斯信念网络(假设所有的属性都是二元的)。
(a) 画出网络中每个结点对应的概率表。
(b) 使用贝叶斯网络计算P(引擎=差,空调=不可用)。
贝叶斯信念网络
数据集
答:答案见下图: