python(NLP)-朴素贝叶斯(监督型学习)

最新推荐文章于 2024-08-16 08:09:29 发布

lishuaixixi

最新推荐文章于 2024-08-16 08:09:29 发布

阅读量1.4k

点赞数 1

分类专栏： nlp

本文链接：https://blog.csdn.net/lishuaixixi/article/details/109533823

版权

本文介绍了朴素贝叶斯分类算法在自然语言处理中的应用，包括贝叶斯公式、处理重复词语的多项式模型、伯努利模型和混合模型。还探讨了其在褒贬分析和拼写纠错场景中的具体使用，并提供了Python实现语种检测的简要说明。

摘要由CSDN通过智能技术生成

分类算法-朴素贝叶斯(监督学习)

贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。

贝叶斯公式

         P(X|Y)P(Y)
P(Y|X)=  ——————————
           P(X)

而它其实是由以下的联合概率公式推导出来：

P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)

其中 P(Y) 叫做先验概率， P(Y|X) 叫做后验概率， P(Y,X) 叫做联合概率。

处理重复词语的三种方式

多项式模型

如果我们考虑重复词语的情况，也就是说，重复的词语我们视为其出现多次，直接按条件独立假设的方式推导

伯努利模型

另一种更加简化的方法是将重复的词语都视为其只出现1次（抛硬币模型）

混合模型

第三种方式是在计算句子概率时，不考虑重复词语出现的次数，但是在统计计算词语的概率P(“词语”|S）时，却考虑重复词语的出现次数，这样的模型可以叫作混合模型。

贝叶斯常见应用场景

褒贬分析

一个比较常见的应用场景是情感褒贬分析。比如你要统计微博上人们对一个新上映电影的褒贬程度评价：好片还是烂片。但是一条一条地看微博是根本看不过来，只能用自动化的方法。我们可以有一个很粗略的思路：

首先是用爬虫将微博上提到这个电影名字的微博全都抓取下来，比如有10万条。

然后用训练好的朴素贝叶斯分类器分别判断这些微博对电影是好评还是差评。

最后统计出这些好评的影评占所有样本中的比例，就能形成微博网友对这个电影综合评价的大致估计。

接下来的核心问题就是训练出一个靠谱的分类器。首先需要有打好标签的文本。这个好找，豆瓣影评上就有大量网友对之前电影的评价，并且对电影进行1星到5星的评价。我们可以认为3星以上的评论都是好评，3星以下的评论都是差评。这样就分别得到了好评差评两类的语料样本。剩下就可以用朴素贝叶斯方法进行训练了。基本思路如下：

训练与测试样本：豆瓣影评的网友评论，用爬虫抓取下100万条。

标签：3星以上的是好评，3星以下的是差评。

特征：豆瓣评论分词后的词语。一个简单的方法是只选择其中的形容词，网上有大量的情绪词库可以为我们所用