通过朴素贝叶斯的方法来判断给定的文本是正面的还是负面的。
基础的朴素贝叶斯公式:

一、读取测试集,进行预处理
1.将所有单词转变为小写,并去除无关的标点符号。
2.将每段文本分成以单词为基本元素单词列表。
二、构建停词表,去除掉一些不影响情感态度的词,减少工作量。
三、根据朴素贝叶斯公式计算每个文本分别为正负文本的概率:
在实际的计算中因为特殊性进行了一些细节的处理:
1.因为p(c=pos)=p(c=neg)=0.5,所以计算时并没有乘上概率
。
2.因为公式中的分母中的p(x)在两次的计算中都是一样大的,而结果只比较两者的大小,所以也不用再计算这个概率了。
3.因为一段文本中可能会有大量的单词,所以乘起来的概率会非常的小,不方便比较,所以每次对概率取了对数再相加。并且计算概率时因为都要除以文本的总数获得概率而且数值较大比

该博客介绍了如何使用朴素贝叶斯方法来判断文本的情感极性,包括基础的朴素贝叶斯公式,以及在实际计算中的一些细节处理,如预处理、停词表的构建、概率计算的优化。还提到了实验改进策略,通过创建全局词频字典来提高查找效率。
最低0.47元/天 解锁文章
2029

被折叠的 条评论
为什么被折叠?



