算法介绍
朴素贝叶斯算法是有监督的学习,目的是解决分类问题。朴素贝叶斯的优点是简单易懂,学习效率高,在数据较少的情况下仍然有效,可以处理多类别问题
学习理解
用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中蓝色三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
如果p1(x,y)>p2(x,y),那么类别为1
如果p1(x,y)<p2(x,y),那么类别为2
从实际来说,若样本为,则p1(x,y)可以表示为p(1|z),因为其难以得到,所以用贝叶斯定理转化
p(1|z)= p(1)p(z|1)/p(z)
P(A|B)是需要考虑A各属性的联合概率,为实际应用假设A事件的各项属性Aj(j=1,2,3,…,m)相互独立:
p(1|z)转化为求p(1)和p(zi|1),p(zi|1)由我们的文本中给出
具体流程
1.收集数据:提供文本文件;
2.准备数据:将文本文件解析成词条向量;
3.分析数据:检查词条确保解析的正确性;
4.训练算法:计算先验概率和条件概率;
5.测试算法:输入测试文本,查看分类结果;
6.使用算法:构建一个完整的程序