python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

最新推荐文章于 2025-10-11 17:01:03 发布

原创

最新推荐文章于 2025-10-11 17:01:03 发布 · 5.8w 阅读

CC 4.0 BY-SA版权

昨晚上发现了snownlp这个库，很开心。先说说我开心的原因。我本科毕业设计做的是文本挖掘，用R语言做的，发现R语言对文本处理特别不友好，没有很多强大的库，特别是针对中文文本的，加上那时候还没有学机器学习算法。所以很头疼，后来不得已用了一个可视化的软件RostCM，但是一般可视化软件最大的缺点是无法调参，很死板，准确率并不高。现在研一，机器学习算法学完以后，又想起来要继续学习文本挖掘了。所以前半个月开始了用python进行文本挖掘的学习，很多人都推荐我从《python自然语言处理》这本书入门，学习了半个月以后，可能本科毕业设计的时候有些基础了，再看这个感觉没太多进步，并且这里通篇将nltk库进行英文文本挖掘的，英文文本挖掘跟中文是有很大差别的，或者说学完英文文本挖掘，再做中文的，也是完全懵逼的。所以我停了下来，觉得太没效率了。然后我在网上查找关于python如何进行中文文本挖掘的文章，最后找到了snownlp这个库，这个库是国人自己开发的python类库，专门针对中文文本进行挖掘，里面已经有了算法，需要自己调用函数，根据不同的文本构建语料库就可以，真的太方便了。我只介绍一下这个库具体应用，不介绍其中的有关算法原理，因为算法原理可以自己去学习。因为我在学习这个库的时候，我查了很多资料发现很少或者基本没有写这个库的实例应用，很多都是转载官网对这个库的简介，所以我记录一下我今天的学习。

首先简单介绍一下这个库可以进行哪些文本挖掘。snownlp主要可以进行中文分词（算法是Character-Based Generative Model）、词性标注（原理是TnT、3-gram 隐马）、情感分析（官网木有介绍原理，但是指明购物类的评论的准确率较高，其实是因为它的语料库主要是购物方面的，可以自己构建相关领域语料库，替换原来的，准确率也挺不错的）、文本分类（原理是朴素贝叶斯）、转换拼音、繁体转简体、提取文本关键词（原理是TextRank）、提取摘要（原理是TextRank）、分割句子、文本相似（原理是BM25）。官网还有更多关于该库的介绍，在看我这个文章之前，建议先看一下官网，

最低0.47元/天解锁文章

20 条评论

学习是奢侈的 2022.01.09
不错，感谢

我想当个程序员 2021.03.04
作者，在验证准确率那一步代码我遇到int has no len()的问题，而且我发现有些Excel文件不报错，但有些就会报，想请教一下

weixin_44649755 2020.12.09
作者大大我爬的是唯品会的数据，这老出问题 text1=[i.decode('utf-8') for i in text0] AttributeError: 'int' object has no attribute 'decode'
- 学习是奢侈的回复m0_61406343 2022.01.09
  可以把decode（‘utf-8’）去掉
- m0_61406343回复weixin_44649755 2021.11.26
  我也是出现这个问题，改成 “encode”也不行

楚小白白 2020.04.24
为什么你认为大于0.6的为积极呢？有没有什么研究成果支撑？或者说在哪可以找到参考文献
- east_p回复qq_40736720 2021.02.25
  请问你找到理论支持了么[face]monkey2:036.png[/face]
- qq_40736720回复楚小白白 2020.05.30
  [reply]qq_39095484[/reply]找到理论支持了吗

weixin_43224808 2018.10.03
sentiment.save('D:/pyscript/sentiment.marshal')想知道这个得到的文件怎么打开呀

lchx0825 2018.04.15
我有一个问题，这个是不是都得人工先进行标注，那如果数据量很大的情况要怎么办呢？是不是这个只适合小数据分析？

learneryp 2018.03.09
您好，有点不懂想请教一下，请问这个是怎么预测的呢，实际标签不是0-1之间的值么，实际标签和预测标签能直接对比？
- DofFei回复海州湾 2021.12.30
  那标注是很大的工作量啊
- 海州湾回复learneryp 2018.03.13
  [reply]learneryp[/reply]作者先自己对评论进行标注，然后通过snownlp的train pos和neg文件（snownlp自带的）训练模型，再对评论进行预测，再将预测和自己的标注比较，验证效果 text0=text.iloc[:,0] #提取表格第0列所有数据 text0=text.iloc[:,1] #提取表格第1列所有数据

是yuyu呀 2017.07.30
中文文本分析，也在做相关的东西。目前只是用python 的爬虫，然后文本分析主要用工具了。也想全部都用python做。谢谢楼主了。
- qq_37451272回复是yuyu呀 2018.12.06
  [reply]sinat_22581761[/reply] 大佬有相关语料库做出来的吗
- xyb333333回复是yuyu呀 2018.05.30
  [reply]sinat_22581761[/reply] 我的研究方向是这个可以加个好友吗？一起研究讨论
- qq_31777091回复是yuyu呀 2018.02.06
  [reply]sinat_22581761[/reply] 楼主请问可以把rostcm 6发给我吗？现在想用可视化工具来做情感分析。邮箱846949488@qq.com，谢谢啦
- 是yuyu呀回复是yuyu呀 2017.12.05
  [reply]sinat_22581761[/reply] 用了一下ROST CM，后来也基本是python了
- yyxyyx10回复是yuyu呀 2017.12.02
  [reply]sinat_22581761[/reply] 请问文本分析是用什么工具呢？可视化的工具都做不太好的，可以跟我说说，我也学习一下，但目前很多公司做自然语言处理还是要python编程的。