snownlp：自定义训练样本与模型保存

AICVHub

已于 2023-12-08 13:25:51 修改

阅读量1.6w

点赞数 34

分类专栏： Python NLP 文章标签：中文自然语言处理 snownlp 情感分析模型

于 2018-09-27 17:34:01 首次发布

本文链接：https://blog.csdn.net/oYeZhou/article/details/82868683

版权

Python NLP 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

snownlp包，是中文自然语言处理的一个Python包，可以用来处理分词、情感分析等。

安装该包之后，在各个功能目录下默认会有一个训练好的模型，当我们调用诸如情感分析的功能时，会使用该模型进行情感预测。然而，如果我们有自己的语料库可以用来训练，则可以大大提高预测的准确率。

我们现在从该包的文件存储入手，来看一看它是如何存储并应用模型的。

1、找到snownlp包的安装目录

本人是在Anaconda上安装的，路径如上图所示。该包下包含了多个文件夹，其中seg、sentiment、tag分别代表：分词、情感分析、词性标注。这三个功能是可以通过训练自己提供的语料来制定与自己行业更为贴近的模型的。

下面以情感分析模块为例，来详细探究其如何训练与保存模型的。

2、情感分析语料与模型文件

打开sentiment文件夹，可以看到里面有两个txt文件：neg.txt、pos.txt，这两个文件分别为消极情绪语料、积极情绪语料。

还有一个sentiment.marshal和一个sentiment.marshal.3文件，该文件均为通过默认语料训练得到的模型，其区别在于前者是Python3版本之前的序列化文件，后者是Python3版本的序列化文件。关于这一点，我们可以从源码中找到答案：可以看到，如果当前的python版本为3，则在文件名后面添加后缀“.3”。

class Bayes(object):

    ...

    def save(self, fname, iszip=True):
        d = {}
        d['total'] = self.total
        d['d'] = {}
        for k, v in self.d.items():
            d['d'][k] = v.__dict__
        if sys.version_info[0] == 3:
            fname = fname + '.3'
        if not iszip:
            marshal.dump(d, open(fname, 'wb'))
        else:
            f = gzip.open(fname, 'wb')
            f.write(marshal.dumps(d))
            f.close()
    ...

3、模型训练与保存

我们现在已经知道了模型是从何处调用训练数据，以及将序列化的模型保存在何处了，接下来看看如何调用相关方法来训练我们自己的语料并保存训练好的模型。

sentiment提供了训练和保存的方法（此处需要注意，你的语料文件需要设置为编码为‘utf-8’，否则训练会报错）：

from snownlp import sentiment
sentiment.train('neg.txt','pos.txt')

通过指定你自己的样本数据，来训练模型，这个过程及其漫长（取决于你的语料库大小）。

训练好之后，即可利用save方法将模型保存起来：

sentiment.save('sentiment.marshal')

保存过程将第2部分的源码，会根据当前的Python版本保存不同的后缀。

4、使用自己训练的模型

我们可以通过修改sentiment目录下__init__.py文件中的data_path，来指定我们自己的模型路径，这样在以后导入snownpl.sentiment时，即可直接使用预测功能，来判断目标的情感值了。

使用方法：

import snownlp as sn

def sentiment(text):
    s = sn.SnowNLP(text)
    return s.sentiments

text = '测试语句'

print(sentiment(text))

AICVHub

关注

34
点赞
踩
201

收藏

觉得还不错? 一键收藏
打赏
38
评论
snownlp：自定义训练样本与模型保存

本文介绍了snownlp包的情感分析模型训练、保存以及如何使用自己训练的模型，从文件结构、源码设置等角度进行了描述。按照此方法，可以轻松玩转snownlp的情感分析。
复制链接

扫一扫

专栏目录