本章内容
使用概率分布进行分类
分类:
if p1(x,y)>p2(x,y),属于类别1
if p1(x,y)>p2(x,y),属于类别2
如何计算概率值呢?
p(ci|x,y)=p(x,y|ci)p(ci)p(x,y)
即在(x,y)的条件下属于类别ci的概率值
学习朴素贝叶斯分类器
朴素贝叶斯的一般过程:
1、收集数据
2、准备数据
3、分析数据
4、训练算法
5、测试算法:计算错误率
6、使用算法
例子1:使用Python进行文本分类
背景:构建一个快速过滤器,判断在线社区留言板是否使用了负面或者侮辱性的语言
Step 1: 创建字典作为特征
将每一篇文档转换为词汇表上的向量
//训练样本
def loadDataSet():
postingList=[['my', 'dog', 'has',