snownlp:自定义训练样本与模型保存

snownlp包,是中文自然语言处理的一个Python包,可以用来处理分词、情感分析等。

安装该包之后,在各个功能目录下默认会有一个训练好的模型,当我们调用诸如情感分析的功能时,会使用该模型进行情感预测。然而,如果我们有自己的语料库可以用来训练,则可以大大提高预测的准确率。

我们现在从该包的文件存储入手,来看一看它是如何存储并应用模型的。

1、找到snownlp包的安装目录

本人是在Anaconda上安装的,路径如上图所示。该包下包含了多个文件夹,其中seg、sentiment、tag分别代表:分词、情感分析、词性标注。这三个功能是可以通过训练自己提供的语料来制定与自己行业更为贴近的模型的。

下面以情感分析模块为例,来详细探究其如何训练与保存模型的。

2、情感分析语料与模型文件

打开sentiment文件夹,可以看到里面有两个txt文件:neg.txt、pos.txt,这两个文件分别为消极情绪语料、积极情绪语料。

还有一个sentiment.marshal和一个sentiment.marshal.3文件,该文件均为通过默认语料训练得到的模型,其区别在于前者是Python3版本之前的序列化文件,后者是Python3版本的序列化文件。关于这一点,我们可以从源码中找到答案:可以看到,如果当前的python版本为3,则在文件名后面添加后缀“.3”。

class Bayes(object):

    ...

    def save(self, fname, iszip=True):
        d = {}
        d['total'] = self.total
        d['d'] = {}
        for k, v in self.d.items():
            d['d'][k] = v.__dict__
        if sys.version_info[0] == 3:
            fname = fname + '.3'
        if not iszip:
            marshal.dump(d, open(fname, 'wb'))
        else:
            f = gzip.open(fname, 'wb')
            f.write(marshal.dumps(d))
            f.close()
    ...

3、模型训练与保存

我们现在已经知道了模型是从何处调用训练数据,以及将序列化的模型保存在何处了,接下来看看如何调用相关方法来训练我们自己的语料并保存训练好的模型。

sentiment提供了训练和保存的方法(此处需要注意,你的语料文件需要设置为编码为‘utf-8’,否则训练会报错):

from snownlp import sentiment
sentiment.train('neg.txt','pos.txt')

通过指定你自己的样本数据,来训练模型,这个过程及其漫长(取决于你的语料库大小)。

训练好之后,即可利用save方法将模型保存起来:

sentiment.save('sentiment.marshal')

保存过程将第2部分的源码,会根据当前的Python版本保存不同的后缀。

4、使用自己训练的模型

我们可以通过修改sentiment目录下__init__.py文件中的data_path,来指定我们自己的模型路径,这样在以后导入snownpl.sentiment时,即可直接使用预测功能,来判断目标的情感值了。

使用方法:

import snownlp as sn

def sentiment(text):
    s = sn.SnowNLP(text)
    return s.sentiments

text = '测试语句'

print(sentiment(text))

  • 32
    点赞
  • 194
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 38
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 38
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叶舟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值