R语言绘制文字云

这篇博客介绍了如何使用R语言对莎士比亚的《仲夏夜之梦》进行文本挖掘,通过数据清洗和分词,提取关键词,并利用R包创建词云图。主要步骤包括环境准备、数据预处理、文本分词和绘制文字云。
摘要由CSDN通过智能技术生成

差不多一年没有怎么认真写过博客了,最近要做毕业设计,记录一下有关实验。参考实验楼上一个实验。主要学习使用分词包Rwordseg对莎士比亚的名著《仲夏夜之梦》中的内容进行单词频数统计,提取关键词,并进行数据清洗,最后使用包wordcloud根据关键词出现的频数对该书绘制标签云图。
主要内容:“文字云”也称“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

  1. 环境准备
    数据准备:
    首先下载下载summer压缩包
    summer压缩包解压得到txt文件。把txt文件放在R的工作目录下。
    R的逻辑包准备
    项目中需要用到的分词包Rwordseg用于对文本中的词进行频数统计,该包是R中的中文分词包,Rwordseg包依赖于rJava包,并且需要预装好java环境,以及java环境变量的配置。
  2. 数据清洗
    英文中很多单词并没有实际上的关键词作用,例如冠词the、人称代词he等单词并不能指向实际的意义,它们只是构成一句话的语法组成元素,那么这一类的词就需要被剔除,被清
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值