通过R语言统计考研英语(二)单词出现频率
大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇。厚厚的一本单词,真的看的头大。最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数。
整体思路:
收集数据-->整理数据-->统计分析-->输出结果
使用工具:
`Rstudio,文本编辑器,CSV`
涉及到的包: "jiebaR"(中文分词引擎),“plyr",
第一步收集数据:
从网络搜索2013-2018考研英语二真题,存成txt格式。
第二步整理数据
针对每个文件进行简单整理,去除不必要的文字。 例如:”2017年全国硕士研究生入学统一考试英语“、”答案 “,或者乱码之类。手工完成。
第三步:统计分析
3.1 打开R语言,安装所需要的包
install.packages("jiebaRD") #安装jiebaR之前先安装"jiebaRD"
install.packages("jiebaR")
install.packages("plyr")-- 加载包--library(jiebaRD)
library(jiebaR)
library(plyr)
search()#查看已经安装的包
search() [1] ".GlobalEnv" "package:xlsx"[3] "package:xlsxjars" "package:rJava"[5] "package:wordcloud" "package:RColorBrewer" [7] "package:plyr" "package:jiebaR"[9] "package:jiebaRD" "tools:rstudio"[11] "package:stats" "package:graphics"[13] "package:grDevices" "package:utils"[15] "package:datasets" "package:methods"[17] "Autoloads" "package:base"
3.2加载文件,分析
setwd("d:/R") #设置文件所在根目录
--加载文件
test_file_2018
test_file_2017
test_file_2016
test_file_2015
test_file_2014
test_file_2013
test_file
test_file
cutter=worker() #设置分词引擎
segWords
--设置停顿词这里其实就是过滤词,一行一个单词,有些自认为很简单的词,比如:选项里 a,b,c,d,the,and,an 等等,或者先过滤这一步,等到统计频率出来,在根据需求一一添加即可。在相同的目录建一个文件"stopword.txt"f
stopwords
{
stopwords[i]
}
segWords
segWords ? @ [ \ ] ^ _ ` { | } ~”
tableWord
view(tableWord)
停顿词示例stopword.txt:
第四步、输出结果
write.csv(tableWord,"tableWord.csv",fileEncoding = "UTF-8")#处出结果存为tableWord.csv 文件。
参考来源:https://blog.csdn.net/zx403413599/article/details/46730801