朴素贝叶斯判断文本的正负性

该博客介绍了如何使用朴素贝叶斯方法来判断文本的情感极性,包括基础的朴素贝叶斯公式,以及在实际计算中的一些细节处理,如预处理、停词表的构建、概率计算的优化。还提到了实验改进策略,通过创建全局词频字典来提高查找效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过朴素贝叶斯的方法来判断给定的文本是正面的还是负面的。

基础的朴素贝叶斯公式:

一、读取测试集,进行预处理

 1.将所有单词转变为小写,并去除无关的标点符号。

 2.将每段文本分成以单词为基本元素单词列表。

二、构建停词表,去除掉一些不影响情感态度的词,减少工作量。

三、根据朴素贝叶斯公式计算每个文本分别为正负文本的概率:

   在实际的计算中因为特殊性进行了一些细节的处理:

  1.因为p(c=pos)=p(c=neg)=0.5,所以计算时并没有乘上概率

  2.因为公式中的分母中的p(x)在两次的计算中都是一样大的,而结果只比较两者的大小,所以也不用再计算这个概率了。

  3.因为一段文本中可能会有大量的单词,所以乘起来的概率会非常的小,不方便比较,所以每次对概率取了对数再相加。并且计算概率时因为都要除以文本的总数获得概率而且数值较大比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值