【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

最新推荐文章于 2022-10-27 21:34:12 发布

开数据挖掘机的小可爱

最新推荐文章于 2022-10-27 21:34:12 发布

阅读量4k

点赞数 7

分类专栏：文本挖掘文章标签： python 数据挖掘可视化

本文链接：https://blog.csdn.net/m0_46568930/article/details/111305723

版权

本文介绍了如何使用Python进行文本挖掘，包括词频统计、词云绘制和美化。通过实战分析小说《微微一笑很倾城》，展示了分词、词频统计的方法，以及如何利用Wordcloud进行词云生成和定制化设计，如自定义形状和颜色。

摘要由CSDN通过智能技术生成

词频统计、词云+实战

这里主要是介绍了词频统计和词云，至于分词，如果您有什么困惑可以参考我的上一篇【文本挖掘】——中文分词哦~

一、词频统计：

1.基本概念及原理

这一步是在做完分词之后进行的，所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次，主要目的是为找出频次高的”关键词“打基础。

词频统计的伪代码：

2.词频统计方法

①基于pandas的词频统计：

输出结果为一个序列，该序列每一行的标签就是进行统计的词，数值就是其频数。

#使用pandas进行词频统计
word_list=['july','可爱','傻fufu','聪明','好可爱','精致','猪猪女孩','猪猪女孩','聪明','聪明']
df=pd.DataFrame(word_list,columns=['word'])
result=df.groupby(['word']).size()
freqlist=result.sort_values(ascending=False)
freqlist[:30]
>>word
  聪明       3
  猪猪女孩   2
  精致       1
  好可爱     1
  可爱       1
  傻fufu     1
  july       1
  dtype: int64

②基于nltk进行词频统计：

其输出结果为频数字典,这就很方便，也很适合后边词云时候用。

#使用NLTK进行词频统计
import nltk
word_list=['july','可爱','傻fufu','聪明','好可爱','精致','猪猪女孩','猪猪女孩','聪明','聪明']
fdlist=nltk.FreqDist(word_list)

print("聪明的词频：",fdlist['聪明'])#查看某个词的频数
print("词条列表：",fdlist.keys())#列出词条列表
print("前五个高频词及其频次为：",fdlist.most_common(5))#输出前五个高频词及其频次
fdlist#输出全部词频统计结果
#fdlist.tabulate(5)#输出前五个高频词，以列表形式输出
>>聪明的词频： 3
  词条列表： dict_keys(['july', '可爱', '傻fufu', '聪明', '好可爱', '精致', '猪猪女孩'])
  前五个高频词及其频次为： [('聪明', 3), ('猪猪女孩', 2), ('july', 1), ('可爱', 1), ('傻fufu', 1)]
  Freq

最低0.47元/天解锁文章

开数据挖掘机的小可爱

关注

7
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

这里写目录标题一、词频统计：1.基本概念及原理2.词频统计方法二、词云1.词云绘制工具：2.python词云绘制——Wordcloud三、基于分词频数绘制词云1.利用词频绘制词云2.美化词云一、词频统计：1.基本概念及原理这一步是在做完分词之后进行的，所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次，主要目的是为找出频次高的”关键词“打基础。词频统计的伪代码：2.词频统计方法①基于pandas的词频统计：输出结果为一个序列，该序列每一行的
复制链接

扫一扫

专栏目录