SnowNLP 使用自定义语料进行模型训练

SnowNLP 是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型朴素贝叶斯TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的SEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现“水土不服”。因此,如果我们希望得到更接近实际的结果,最好的方案是使用自定义语料进行模型训练。值得庆幸的是,这一切在 SnowNLP 中实施起来非常简单,并不需要我们去钻研那些高深莫测的算法。至此,就引出了今天这篇博客的主题,即 SnowNLP 使用自定义语料进行模型训练。

不知道大家是否还有印象,博主曾经在 《通过Python分析2020年全年微博热搜数据》 这篇文章中提到过 SnowNLP 的模型训练。当时,博主采集了整个 2020 年的微博热搜话题,因为要体现整个一年里的情感变化,博主特意找了两份微博语料,并以此为基础训练出了一个模型文件。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 14
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云来雁去

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值