Python之天龙八部词云生成分析

最新推荐文章于 2024-07-23 20:35:10 发布

xuzhenlei1234

最新推荐文章于 2024-07-23 20:35:10 发布

阅读量5.6k

点赞数 2

分类专栏：机器学习文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/u013473520/article/details/51764334

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Python之天龙八部词云生成分析

今天接触到了一个中文分词神奇–结巴分词。做自然语言处理的同志们应该都接触过这个强大的分词神器。本人基于该分词神器以及word_cloud做了一个天龙八部词云分析。

直接上代码：

#coding:utf-8

import jieba
from wordcloud import WordCloud 

f = open(u'天龙八部.txt','r').read()
s = {}
f = jieba.cut(f)
for w in f:
    if len(w) > 1:
        previous_count = s.get(w,0)
        s[w] = previous_count+1

word = sorted(s.items(),key=lambda (word,count):count, reverse = True)
word = word[1:100]
#print word[:100]
wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
import matplotlib.pyplot as plt
plt.imshow(wordcloud) 
plt.axis("off")
plt.show()

最终的结果是：

天龙八部