r语言上机文本分析与词云绘制_自然语言处理N天-Day0401文本可视化技巧(词云)...

a2ec2300f22c8ebb8bc48c50277e051e.png

说明:本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程,我是从GitChat上购买。

第四课 文本可视化技巧

文本可视化流程

文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。

文本分析的过程主要包括特征提取,通过分词、抽取、归一化等操作提取出文本词汇级的内容,利用特征构建向量空间模型并进行降维,以便将其呈现在低维空间,或者利用主题模型处理特征,最终以灵活有效的形式表示这些处理过的数据,以便进行可视化呈现。

1.基于内容的可视化

主要包括的就是词频可视化、词汇分布可视化。

2.基于关系的可视化

帮助人们理解文本内容和发现规律。常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等。

3.基于多层面的可视化

基于多层面信息的可视化主要研究如何结合信息的多个方面帮助用户从更深层次理解文本数据,发现其内在规律。其中,包含时间信息和地理坐标的文本可视化近年来受到越来越多的关注。

介绍了三种可视化方式

词云、关系图、热力图,教程挺鸡贼的,只放了核心代码,也不说源码在哪里……搞笑吧。我这里仅对词云和关系图的代码进行补全。

词云

我用2019年新年贺词来制作,看看2019年的愿景是什么

import chardet # 检测字符类型的类from wordcloud import WordCloud # 词云库import matplotlib.pyplot as pltimport pandas as pdimport jiebaimport jieba.analyseimport matplotlib.pyplot as pltimport numpy as npdir = r"C://Users//01//Desktop//"file_dec = "".join([dir, 'new1.txt'])stop_words = "".join([dir, 'stopwords.txt'])stopwords = pd.read_csv(stop_words, index_col=False, quoting=3, sep=
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值