snownlp简介

aimAttack

已于 2023-08-11 10:28:14 修改

阅读量449

点赞数

分类专栏：情感分析文章标签： nlp 数据分析

于 2023-08-11 10:15:08 首次发布

本文链接：https://blog.csdn.net/m0_52421380/article/details/124493993

版权

情感分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、snownlp简介

snownlp是什么？

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。注意本程序都是处理的unicode编码，所以使用时请自行decode成unicode。

以上是官方对snownlp的描述，简单地说，snownlp是一个中文的自然语言处理的Python库，支持的中文自然语言操作包括：

中文分词
词性标注
情感分析
文本分类
转换成拼音
繁体转简体
提取文本关键词
提取文本摘要
tf，idf
Tokenization
文本相似

在本文中，将重点介绍snownlp中的情感分析（Sentiment Analysis）。

二、snownlp情感分析模块的使用

2.1、snownlp库的安装

snownlp的安装方法如下：

pip install snownlp
   
   
   
   1

2.2、使用snownlp情感分析

利用snownlp进行情感分析的代码如下所示：

#coding:UTF-8
import sys
from snownlp import SnowNLP

def read_and_analysis(input_file, output_file):
f = open(input_file)
fw = open(output_file, “w”)
while True:
line = f.readline()
if not line:
break
lines = line.strip().split(“\t”)
if len(lines) < 2:
continue

s = SnowNLP(lines[<span class="hljs-number">1</span>].decode(<span class="hljs-string">'utf-8'</span>))
<span class="hljs-comment"># s.words 查询分词结果</span>
seg_words = <span class="hljs-string">""</span>
<span class="hljs-keyword">for</span> x <span class="hljs-keyword">in</span> s.words:
  seg_words += <span class="hljs-string">"_"</span>
  seg_words += x
<span class="hljs-comment"># s.sentiments 查询最终的情感分析的得分</span>
fw.write(lines[<span class="hljs-number">0</span>] + <span class="hljs-string">"\t"</span> + lines[<span class="hljs-number">1</span>] + <span class="hljs-string">"\t"</span> + seg_words.encode(<span class="hljs-string">'utf-8'</span>) + <span class="hljs-string">"\t"</span> + str(s.sentiments) + <span class="hljs-string">"\n"</span>)

fw.close()
f.close()

if name == “main”:
input_file = sys.argv[1]
output_file = sys.argv[2]
read_and_analysis(input_file, output_file)

上述代码会从文件中读取每一行的文本，并对其进行情感分析并输出最终的结果。

注：库中已经训练好的模型是基于商品的评论数据，因此，在实际使用的过程中，需要根据自己的情况，重新训练模型。

2.3、利用新的数据训练情感分析模型

在实际的项目中，需要根据实际的数据重新训练情感分析的模型，大致分为如下的几个步骤：

准备正负样本，并分别保存，如正样本保存到pos.txt，负样本保存到neg.txt；
利用snownlp训练新的模型
保存好新的模型

重新训练情感分析的代码如下所示：

#coding:UTF-8

from snownlp import sentiment

if name == “main”:
# 重新训练模型
sentiment.train(‘./neg.txt’, ‘./pos.txt’)
# 保存好新训练的模型
sentiment.save(‘sentiment.marshal’)

注意：若是想要利用新训练的模型进行情感分析，需要修改代码中的调用模型的位置。

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),'sentiment.marshal')
 
 
 
 1

三、snownlp情感分析的源码解析

snownlp中支持情感分析的模块在sentiment文件夹中，其核心代码为__init__.py

如下是Sentiment类的代码：

class Sentiment(object):
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">__init__</span><span class="hljs-params">(self)</span>:</span>
    self.classifier = Bayes() <span class="hljs-comment"># 使用的是Bayes的模型</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">save</span><span class="hljs-params">(self, fname, iszip=True)</span>:</span>
    self.classifier.save(fname, iszip) <span class="hljs-comment"># 保存最终的模型</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">load</span><span class="hljs-params">(self, fname=data_path, iszip=True)</span>:</span>
    self.classifier.load(fname, iszip) <span class="hljs-comment"># 加载贝叶斯模型</span>

<span class="hljs-comment"># 分词以及去停用词的操作    </span>
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">handle</span><span class="hljs-params">(self, doc)</span>:</span>
    words = seg.seg(doc) <span class="hljs-comment"># 分词</span>
    words = normal.filter_stop(words) <span class="hljs-comment"># 去停用词</span>
    <span class="hljs-keyword">return</span> words <span class="hljs-comment"># 返回分词后的结果</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">train</span><span class="hljs-params">(self, neg_docs, pos_docs)</span>:</span>
    data = []
    <span class="hljs-comment"># 读入负样本</span>
    <span class="hljs-keyword">for</span> sent <span class="hljs-keyword">in</span> neg_docs:
        data.append([self.handle(sent), <span class="hljs-string">'neg'</span>])
    <span class="hljs-comment"># 读入正样本</span>
    <span class="hljs-keyword">for</span> sent <span class="hljs-keyword">in</span> pos_docs:
        data.append([self.handle(sent), <span class="hljs-string">'pos'</span>])
    <span class="hljs-comment"># 调用的是Bayes模型的训练方法</span>
    self.classifier.train(data)

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">classify</span><span class="hljs-params">(self, sent)</span>:</span>
    <span class="hljs-comment"># 1、调用sentiment类中的handle方法</span>
    <span class="hljs-comment"># 2、调用Bayes类中的classify方法</span>
    ret, prob = self.classifier.classify(self.handle(sent)) <span class="hljs-comment"># 调用贝叶斯中的classify方法</span>
    <span class="hljs-keyword">if</span> ret == <span class="hljs-string">'pos'</span>:
        <span class="hljs-keyword">return</span> prob
    <span class="hljs-keyword">return</span> <span class="hljs-number">1</span>-probclass Sentiment(object):

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">__init__</span><span class="hljs-params">(self)</span>:</span>
    self.classifier = Bayes() <span class="hljs-comment"># 使用的是Bayes的模型</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">save</span><span class="hljs-params">(self, fname, iszip=True)</span>:</span>
    self.classifier.save(fname, iszip) <span class="hljs-comment"># 保存最终的模型</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">load</span><span class="hljs-params">(self, fname=data_path, iszip=True)</span>:</span>
    self.classifier.load(fname, iszip) <span class="hljs-comment"># 加载贝叶斯模型</span>

<span class="hljs-comment"># 分词以及去停用词的操作    </span>
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">handle</span><span class="hljs-params">(self, doc)</span>:</span>
    words = seg.seg(doc) <span class="hljs-comment"># 分词</span>
    words = normal.filter_stop(words) <span class="hljs-comment"># 去停用词</span>
    <span class="hljs-keyword">return</span> words <span class="hljs-comment"># 返回分词后的结果</span>

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">train</span><span class="hljs-params">(self, neg_docs, pos_docs)</span>:</span>
    data = []
    <span class="hljs-comment"># 读入负样本</span>
    <span class="hljs-keyword">for</span> sent <span class="hljs-keyword">in</span> neg_docs:
        data.append([self.handle(sent), <span class="hljs-string">'neg'</span>])
    <span class="hljs-comment"># 读入正样本</span>
    <span class="hljs-keyword">for</span> sent <span class="hljs-keyword">in</span> pos_docs:
        data.append([self.handle(sent), <span class="hljs-string">'pos'</span>])
    <span class="hljs-comment"># 调用的是Bayes模型的训练方法</span>
    self.classifier.train(data)

<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">classify</span><span class="hljs-params">(self, sent)</span>:</span>
    <span class="hljs-comment"># 1、调用sentiment类中的handle方法</span>
    <span class="hljs-comment"># 2、调用Bayes类中的classify方法</span>
    ret, prob = self.classifier.classify(self.handle(sent)) <span class="hljs-comment"># 调用贝叶斯中的classify方法</span>
    <span class="hljs-keyword">if</span> ret == <span class="hljs-string">'pos'</span>:
        <span class="hljs-keyword">return</span> prob
    <span class="hljs-keyword">return</span> <span class="hljs-number">1</span>-prob<div class="hljs-button {2}" data-title="复制" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.4259&quot;}"></div></code><ul class="pre-numbering" style=""><li style="color: rgb(153, 153, 153);">1</li><li style="color: rgb(153, 153, 153);">2</li><li style="color: rgb(153, 153, 153);">3</li><li style="color: rgb(153, 153, 153);">4</li><li style="color: rgb(153, 153, 153);">5</li><li style="color: rgb(153, 153, 153);">6</li><li style="color: rgb(153, 153, 153);">7</li><li style="color: rgb(153, 153, 153);">8</li><li style="color: rgb(153, 153, 153);">9</li><li style="color: rgb(153, 153, 153);">10</li><li style="color: rgb(153, 153, 153);">11</li><li style="color: rgb(153, 153, 153);">12</li><li style="color: rgb(153, 153, 153);">13</li><li style="color: rgb(153, 153, 153);">14</li><li style="color: rgb(153, 153, 153);">15</li><li style="color: rgb(153, 153, 153);">16</li><li style="color: rgb(153, 153, 153);">17</li><li style="color: rgb(153, 153, 153);">18</li><li style="color: rgb(153, 153, 153);">19</li><li style="color: rgb(153, 153, 153);">20</li><li style="color: rgb(153, 153, 153);">21</li><li style="color: rgb(153, 153, 153);">22</li><li style="color: rgb(153, 153, 153);">23</li><li style="color: rgb(153, 153, 153);">24</li><li style="color: rgb(153, 153, 153);">25</li><li style="color: rgb(153, 153, 153);">26</li><li style="color: rgb(153, 153, 153);">27</li><li style="color: rgb(153, 153, 153);">28</li><li style="color: rgb(153, 153, 153);">29</li><li style="color: rgb(153, 153, 153);">30</li><li style="color: rgb(153, 153, 153);">31</li><li style="color: rgb(153, 153, 153);">32</li><li style="color: rgb(153, 153, 153);">33</li><li style="color: rgb(153, 153, 153);">34</li><li style="color: rgb(153, 153, 153);">35</li><li style="color: rgb(153, 153, 153);">36</li><li style="color: rgb(153, 153, 153);">37</li><li style="color: rgb(153, 153, 153);">38</li><li style="color: rgb(153, 153, 153);">39</li><li style="color: rgb(153, 153, 153);">40</li><li style="color: rgb(153, 153, 153);">41</li><li style="color: rgb(153, 153, 153);">42</li><li style="color: rgb(153, 153, 153);">43</li><li style="color: rgb(153, 153, 153);">44</li><li style="color: rgb(153, 153, 153);">45</li><li style="color: rgb(153, 153, 153);">46</li><li style="color: rgb(153, 153, 153);">47</li><li style="color: rgb(153, 153, 153);">48</li><li style="color: rgb(153, 153, 153);">49</li><li style="color: rgb(153, 153, 153);">50</li><li style="color: rgb(153, 153, 153);">51</li><li style="color: rgb(153, 153, 153);">52</li><li style="color: rgb(153, 153, 153);">53</li><li style="color: rgb(153, 153, 153);">54</li><li style="color: rgb(153, 153, 153);">55</li><li style="color: rgb(153, 153, 153);">56</li><li style="color: rgb(153, 153, 153);">57</li><li style="color: rgb(153, 153, 153);">58</li><li style="color: rgb(153, 153, 153);">59</li><li style="color: rgb(153, 153, 153);">60</li><li style="color: rgb(153, 153, 153);">61</li><li style="color: rgb(153, 153, 153);">62</li><li style="color: rgb(153, 153, 153);">63</li><li style="color: rgb(153, 153, 153);">64</li><li style="color: rgb(153, 153, 153);">65</li><li style="color: rgb(153, 153, 153);">66</li><li style="color: rgb(153, 153, 153);">67</li><li style="color: rgb(153, 153, 153);">68</li><li style="color: rgb(153, 153, 153);">69</li></ul></pre>

从上述的代码中，classify函数和train函数是两个核心的函数，其中，train函数用于训练一个情感分类器，classify函数用于预测。在这两个函数中，都同时使用到的handle函数，handle函数的主要工作为：

对输入文本分词
去停用词

情感分类的基本模型是贝叶斯模型Bayes，对于贝叶斯模型，可以参见文章简单易学的机器学习算法——朴素贝叶斯。对于有两个类别c1的贝叶斯模型的基本过程为：

P (c 1 ∣ w 1, \dots, w n) = P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) P ( w 1 , \dots , w n )

其中：

P (w 1, \dots, w n) = P (w 1, \dots, w n ∣ c 1) \cdot P (c 1) + P (w 1, \dots, w n ∣ c 2) \cdot P (c 2)

3.1、贝叶斯模型的训练

贝叶斯模型的训练过程实质上是在统计每一个特征出现的频次，其核心代码如下：

def train(self, data):
    # data 中既包含正样本，也包含负样本
    for d in data: # data中是list
        # d[0]:分词的结果，list
        # d[1]:正/负样本的标记
        c = d[1]
        if c not in self.d:
            self.d[c] = AddOneProb() # 类的初始化
        for word in d[0]: # 分词结果中的每一个词
            self.d[c].add(word, 1)
    # 返回的是正类和负类之和
    self.total = sum(map(lambda x: self.d[x].getsum(), self.d.keys())) # 取得所有的d中的sum之和
 
 
 
 1
2
3
4
5
6
7
8
9
10
11
12

这使用到了AddOneProb类，AddOneProb类如下所示：

class AddOneProb(BaseProb):
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">__init__</span><span class="hljs-params">(self)</span>:</span>
    self.d = {}
    self.total = <span class="hljs-number">0.0</span>
    self.none = <span class="hljs-number">1</span> <span class="hljs-comment"># 默认所有的none为1</span>
<span class="hljs-comment"># 这里如果value也等于1，则当key不存在时，累加的是2</span>
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">add</span><span class="hljs-params">(self, key, value)</span>:</span>
    self.total += value
    <span class="hljs-comment"># 不存在该key时，需新建key</span>
    <span class="hljs-keyword">if</span> <span class="hljs-keyword">not</span> self.exists(key):
        self.d[key] = <span class="hljs-number">1</span>
        self.total += <span class="hljs-number">1</span>
    self.d[key] += value<div class="hljs-button {2}" data-title="复制" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.4259&quot;}"></div></code><ul class="pre-numbering" style=""><li style="color: rgb(153, 153, 153);">1</li><li style="color: rgb(153, 153, 153);">2</li><li style="color: rgb(153, 153, 153);">3</li><li style="color: rgb(153, 153, 153);">4</li><li style="color: rgb(153, 153, 153);">5</li><li style="color: rgb(153, 153, 153);">6</li><li style="color: rgb(153, 153, 153);">7</li><li style="color: rgb(153, 153, 153);">8</li><li style="color: rgb(153, 153, 153);">9</li><li style="color: rgb(153, 153, 153);">10</li><li style="color: rgb(153, 153, 153);">11</li><li style="color: rgb(153, 153, 153);">12</li><li style="color: rgb(153, 153, 153);">13</li><li style="color: rgb(153, 153, 153);">14</li></ul></pre>

注意：

none的默认值为1
当key不存在时，total和对应的d[key]累加的是1+value，这在后面预测时需要用到

AddOneProb类中的total表示的是正类或者负类中的所有值；train函数中的total表示的是正负类的total之和。

当统计好了训练样本中的total和每一个特征key的d[key]后，训练过程就构建完成了。

3.2、贝叶斯模型的预测

预测的过程使用到了上述的公式，即：

P (c 1 ∣ w 1, \dots, w n) = P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) + P ( w 1 , \dots , w n ∣ c 2 ) \cdot P ( c 2 )

对上述的公式简化：

P (c 1 ∣ w 1, \dots, w n) = P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) + P ( w 1 , \dots , w n ∣ c 2 ) \cdot P ( c 2 ) = 1 1 + P ( w 1 , \dots , w n ∣ c 2 ) \cdot P ( c 2 ) P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) = 1 1 + e x p [ l o g ( P ( w 1 , \dots , w n ∣ c 2 ) \cdot P ( c 2 ) P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) ) ] = 1 1 + e x p [ l o g ( P ( w 1 , \dots , w n ∣ c 2 ) \cdot P ( c 2 ) ) - l o g ( P ( w 1 , \dots , w n ∣ c 1 ) \cdot P ( c 1 ) ) ]

其中，分母中的1可以改写为：

1 = e x p [l o g (P (w 1, \dots, w n ∣ c 1) \cdot P (c 1)) - l o g (P (w 1, \dots, w n ∣ c 1) \cdot P (c 1))]

。

参考文献

aimAttack

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
snownlp简介

一、snownlp简介 snownlp是什么？ SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里...
复制链接

扫一扫