一、实训内容
在进行数据读入操作前,要求下载和加载相应的程序包文件。
利用R语言的scan( )方法,从外部txt文件读入进行实验的数据集内容。
本实验要求先对输入的数据集进行词语分割,过滤不合需求的字符长度。进行词频统计后,仍可进行数字的过滤操作,最后进行词语的降序排序。
在对数据集进行分词,统计词频之后,方可使用程序包wordcloud,对数据集进行词云图片的绘画和生成。
二、实验课题目标
要求掌握程序包的基本操作,包括下载、加载等。同时,能从二进制文本文件中读入数据集的相应内容。
在数据处理的过程中,重点掌握分词、词频统计、过滤和排序的方法,以及相应的函数参数的把控。
深入理解词云图片生成的基本原理,以及基本的实现方法,能灵活面向多种类型的数据集进行应用。同时,掌握数据集生成图片的转换过程。
三、实验平台
1、 系统: Windows 10
Intel(R) Core(TM)i7-7500U CPU @ 2.70GHz 2.90 GHz
RAM 8.00GB
2、工具:
R x64 3.6.1
notepad.exe
eclipse
word 2016
四、实施步骤
1) 读入数据
1、 切换R语言的工作空间。首先在C:\目录下,新建文件夹为workspace,再打开R x64 3.6.1程序,输入命令:getwd() ,获取当前R语言程序的工作空间。输入如命令:setwd("C:/worksp