资料:
贝叶斯系列教程:
https://blog.csdn.net/cindy407/article/details/93523568
Tips:上述资料中,在第三章《贝叶斯③——Python实现贝叶斯文本分类(伯努利&多项式模型对比)》中,关于“④ 计算类别概率和类条件概率(伯努利和多项式)”中的多项式模型的代码逻辑好像有问题,笔者思路如下:
# 多项式模型
def cal_prob_m(dataset,classVec):
Pvec_1 = np.ones(len(dataset[0]))
Pvec_0 = np.ones(len(dataset[0]))
Pnum_1,Pnum_0 = len(dataset[0]) # 多项式分母是加上训练样本的单词总数,这里用词典的长度来作为单词数量
for i, data in enumerate(dataset):
if classVec[i] == 1:
Pvec_1 += data
Pnum_1 += sum(data)
else:
Pvec_0 += data
Pnum_0 += sum(data)
Prob_1 = np.log(Pvec_1/Pnum_1) # 多项式类条件概率是用某单词在此类文档中出现的次数之和/此类文档的单词总数(包括重复的),这里取对数是为了后面方便计算
Prob_0 = np.log(Pvec_0/Pnum_0)
category_1 = sum(Pvec_1)/(Pnum_1 + Pnum_0) # 多项式类别概率是用类别所有词的出现次数之和/整个训练样本所有词的出现次数之和,也就是类别单词总数/训练样本单词总数
return category_1,Prob_1,Prob_0
跟原文中的代码相比,去除了sum()函数求和的操作。