用朴素贝叶斯算法进行文本分类

机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类照片器。朴素贝叶斯算法其实就是根据数学中的贝叶斯公式来进行计算概率,在通过概率来进行分类。使用这个算法需要大量的训练集当做支撑,这些训练集需要人工进行分类,训练集的数目越多,分类越准确,最后得到的结果按道理来说也越准确,但是有些可能还是会存在一些误差,下面我们就来看看这朴素贝叶斯算法到底是这样的。

朴素贝叶斯算法

在上一篇中我们已经把贝叶斯公式将了一下,如果不知道的在下面给出了上一篇的链接,感兴趣的可以去看看。其他多余的话就不讲了,现在就是来教你一步一步的来知道如何根据贝叶斯公式进行朴素贝叶斯算法的实现。

上一篇介绍贝叶斯公式的链接:https://blog.csdn.net/qq_39187675/article/details/85134699

第一步,加载训练集

首先将已经分好类的训练集对每一个样本进行分词放入一个列表中,在分好词后我们也可以将其中的停用词或者一些没有意义的词给过滤掉。同时针对训练集中的每一个样本,将其所在的类别放入一个列表中

#样本数据   构造词汇表及其对应的标签
def dataSet():
    f = open("F:Content_数据.csv", "r&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值