一、算法简要
贝叶斯是从统计概率的角度来进行分类,确切来说是条件概率,例如要猜是哪一类动物,该动物具备的特征是:四条腿、高度超过x米、哺乳动物,那么在这些特征前提下,计算其为哪种动物的概率。
二、算法一般流程
1.数据的收集
2.数据的准备:数值型或布尔型
3.分析数据
4.训练算法:计算不同的独立特征的条件概率
5.测试算法:计算错误率
6.使用算法:以实际应用为驱动
三、朴素贝叶斯伪代码
1.计算各个独立特征在各个分类中的条件概率
2.计算各类别出现的概率
3.对于特定的特征输入,计算其相应属于特定分类的条件概率
4.选择条件概率最大的类别作为该输入类别进行返回
四、代码实现与示例
trainBN0中计算各个独立特征在不同分类中的条件概率和各类别的概率(为了更好的计算,避免独立特征条件概率为0,将所有词出现的次数初始化为1,同时将分母初始化为2---即p0Num=ones(numWords) p1Num=ones(numWords) p0Denom=2.0 p1Denom=2