利用python进行tf-idf算法绘制词云图_Python文本挖掘: 词频统计，词云图

最新推荐文章于 2022-05-13 22:09:16 发布

weixin_39715907

最新推荐文章于 2022-05-13 22:09:16 发布

阅读量994

点赞数

文章标签：利用python进行tf-idf算法绘制词云图

本文介绍了如何使用Python的jieba库进行TF-IDF算法提取关键词，并结合wordcloud库生成词云图。通过示例代码展示了从读取文本到生成词云的完整过程，强调了在处理中文时指定字体的重要性。

摘要由CSDN通过智能技术生成

在中文的文本挖掘中，对海量文本进行准确分词是其中至关重要一步。当前的Python语言下存在多种开源文本分析包，其中jieba这个包能够提供相对高效的分词方案。

结合jieba代码和一些相关资料，基本得知jieba是基于Trie树结构实现的高效词图扫描，生成句子中汉字所有可能成词情况的有向无环图(DAG)。结巴分词中自带了一个叫做dict.txt的词典，里面包含词，词条出现次数(基于人民日报等语料库)，词性。结巴会根据词典对分词句子切分，生成DAG，与此同时将每个词的出现次数转换成频率。该频率会根据动态规划查找最大路径，找出基于词频的切分组合。

对于不存在与词典中的词，结巴则采用了基于汉字成词能力的HMM模型，使用Viterbi算法进行分词。也就是说如果dict.txt词典中没有任何词，结巴也能够根据HMM模型分词。下面写一个demo测试下结巴的分词能力。

测试文本数据采用了一篇翻译过来的医学论文《Importance of Being Adaptable Developing Guidelines for Lung Nodule Evaluation》.

结巴的提取关键词API非常易用, 这里我们提取测试文本中出现频率前100的高频词汇。并将中文编码转为unicode.

content = open("testing.txt","rb").read()

# tags extraction based on TF-IDF algorithm

tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)

text =" ".join(tags)

text = unicode(text)

最低0.47元/天解锁文章

weixin_39715907

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。