在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类照片器。朴素贝叶斯算法其实就是根据数学中的贝叶斯公式来进行计算概率,在通过概率来进行分类。使用这个算法需要大量的训练集当做支撑,这些训练集需要人工进行分类,训练集的数目越多,分类越准确,最后得到的结果按道理来说也越准确,但是有些可能还是会存在一些误差,下面我们就来看看这朴素贝叶斯算法到底是这样的。
朴素贝叶斯算法
在上一篇中我们已经把贝叶斯公式将了一下,如果不知道的在下面给出了上一篇的链接,感兴趣的可以去看看。其他多余的话就不讲了,现在就是来教你一步一步的来知道如何根据贝叶斯公式进行朴素贝叶斯算法的实现。
上一篇介绍贝叶斯公式的链接:https://blog.csdn.net/qq_39187675/article/details/85134699
第一步,加载训练集
首先将已经分好类的训练集对每一个样本进行分词放入一个列表中,在分好词后我们也可以将其中的停用词或者一些没有意义的词给过滤掉。同时针对训练集中的每一个样本,将其所在的类别放入一个列表中
#样本数据 构造词汇表及其对应的标签
def dataSet():
f = open("F:Content_数据.csv", "r&#