利用jieba完成对280779条热评的统计

最新推荐文章于 2020-11-04 15:20:46 发布

jxy980625

最新推荐文章于 2020-11-04 15:20:46 发布

阅读量174

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/jxy980625/article/details/80385083

版权

学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

代码如下：

>>> import jieba
>>> import jieba.analyse
>>>import io
>>> a=io.open('D:/1.txt','r',encoding='utf-8').read()
>>> b=[x for x in jieba.cut(a) if len(x) >= 2]
>>> c=Counter(b).most_common(50)
>>> print(c)
[(u'\u4e00\u4e2a', 28255), (u'\u559c\u6b22', 26307), (u'\u5927\u54ed', 24180), (u'\u9996\u6b4c', 23797), (u'\u81ea\u5df1', 18642), (u'\u6ca1\u6709', 16400), (u'\u65f6\u5019', 16173), (u'\u6211\u4eec', 15616), (u'\u5c31\u662f', 15371), (u'\u97f3\u4e50', 13195), (u'\u77e5\u9053', 13063), (u'\u8fd9\u4e2a', 12713), (u'\u89c9\u5f97', 12428), (u'\u611f\u89c9', 12257), (u'\u73b0\u5728', 11989), (u'\u4ec0
\u4e48', 11559), (u'\u4e0d\u662f', 11253), (u'\u771f\u7684', 10818), (u'\u8fd8\u662f', 10788), (u'\u6d41\u6cea', 8936), (u'\u53ef\u4ee5', 8911), (u'\u56e0\u4e3a', 8850), (u'\u8bc4\u8bba', 8693), (u'\u8fd9\u4e48', 8517), (u'\u542c\u5230', 8473), (u'\u7f51\u6613', 8309), (u'\u7231\u5fc3', 8044), (u'\u597d\u542c', 7871), (u'\u4f60\u4eec', 7729), (u'\u58f0\u97f3', 7490), (u'\u4e00\u76f4', 7443), (u'\u770b\u5230', 7289), (u'\u8fd9\u9996', 7253), (u'\u90a3\u4e2a', 6968), (u'\u4e00\u8d77', 6706), (u'\u6b4c\u8bcd', 6644), (u'\u8fd9\u6837', 6620), (u'\u5e0c\u671b', 6601), (u'\u4e00\u6837', 6581), (u'\u4ed6\u4eec', 6477), (u'\u4f46\u662f', 6477), (u'\u5df2\u7ecf', 6420), (u'\u90a3\u4e48', 6207), (u'\u6700\u540e', 6066), (u'\u7136\u540e', 5871), (u'\u53ef\u7231', 5807), (u'\u5982\u679c', 5751), (u'\u4e0d\u8981', 5744), (u'\u4eb2\u4eb2', 5624), (u'\u600e\u4e48', 5546)]
>>>

jxy980625

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用jieba完成对280779条热评的统计

代码如下：&gt;&gt;&gt; import jieba&gt;&gt;&gt; import jieba.analyse&gt;&gt;&gt;import io&gt;&gt;&gt; a=io.open('D:/1.txt','r',encoding='utf-8').read()&gt;&gt;&gt; b=[x for x in jieba.cut(a) if len(x)
复制链接

扫一扫