朴素贝叶斯分类器训练过程分析_朴素贝叶斯分类算法训练-CSDN博客

本文链接：https://blog.csdn.net/w15454/article/details/80450104

本文详细介绍了朴素贝叶斯分类器的训练过程，包括如何从数据集中获取特征，如何构建特征表示列表，以及如何进行训练。通过案例展示了如何处理训练数据，计算各类别的概率以及单词在类别中的条件概率。最后，讨论了分类器的改进方法，如处理概率为0的问题和词袋模型的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载来源，系列阅读:http://pocore.com/blog/article_495.html

原文链接

这是一个识别论坛不当言论的案例

步骤一:获得这个问题的全部特征(标称型)
所谓标称型数据:是可以化成0 1表示的数据

用于案例训练的数据如下:
dataSet: [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

获得这个问题的全部特征做法如下
依次循环取得一行
document: ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

set化可获取词列表{'please', 'has', 'flea', 'help', 'my', 'problems', 'dog'}

循环每步和上一步获得set取并集
{'please', 'maybe', 'not', 'him', 'to', 'has', 'stupid', 'flea', 'help', 'my', 'problems', 'take', 'park', 'dog'}
...

list化最终得到训练数据的不重复词库如下：
word:['love', 'please', 'not', 'has', 'how', 'stop', 'is', 'cute', 'dog', 'ate', 'worthless', 'I', 'stupid', 'flea', 'dalmation', 'problems', 'take', 'park', 'buying', 'to', 'steak', 'food', 'posting', 'quit', 'so', 'maybe', 'licks', 'him', 'mr', 'my', 'help', 'garbage']

步骤二:实现输入词条得到上一步的词库状态特征表示列表

上一步得到的不重复词库:
vocabList: ['has', 'stop', 'him', 'not', 'take', 'how', 'to', 'dalmation', 'maybe', 'is', 'food', 'steak', 'dog', 'my', 'I', 'stupid', 'posting', 'licks', 'park', 'please', 'worthless', 'problems', 'cute', 'garbage', 'ate', 'flea', 'mr', 'help', 'love', 'quit', 'buying', 'so']

举例要获取词库特征表示列表的输入语句列表表示如下