差不多一年没有怎么认真写过博客了,最近要做毕业设计,记录一下有关实验。参考实验楼上一个实验。主要学习使用分词包Rwordseg
对莎士比亚的名著《仲夏夜之梦》中的内容进行单词频数统计,提取关键词,并进行数据清洗,最后使用包wordcloud
根据关键词出现的频数对该书绘制标签云图。
主要内容:“文字云”也称“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
- 环境准备
数据准备:
首先下载下载summer压缩包
summer压缩包解压得到txt文件。把txt文件放在R的工作目录下。
R的逻辑包准备
项目中需要用到的分词包Rwordseg
用于对文本中的词进行频数统计,该包是R中的中文分词包,Rwordseg
包依赖于rJava
包,并且需要预装好java环境,以及java环境变量的配置。 - 数据清洗
英文中很多单词并没有实际上的关键词作用,例如冠词the、人称代词he等单词并不能指向实际的意义,它们只是构成一句话的语法组成元素,那么这一类的词就需要被剔除,被清