朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
贝叶斯准则:
使用朴素贝叶斯进行文档分类
朴素贝叶斯的一般过程
(
1
)收集数据:可以使用任何方法。本文使用
RSS
源
(
2
)准备数据:需要数值型或者布尔型数据
(
3
)分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好
(
4
)训练算法:计算不同的独立特征的条件概率
(
5
)测试算法:计算错误率
(
6
)使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴
素贝叶斯分类器,不一定非要是文本。
准备数据:从文本中构建词向量
摘自机器学习实战。
[['my','dog','has','flea','problems','help','please'],
0
['maybe','not','take','him','to','dog','park','stupid'],
1
['my','dalmation','is','so','cute','I','love','him'],
0