考研大纲词汇mysql下载_通过R语言统计考研英语（二）单词出现频率

托卡马克之冠mkq

于 2021-02-12 12:05:11 发布

阅读量349

点赞数 1

文章标签：考研大纲词汇mysql下载

本文链接：https://blog.csdn.net/weixin_28944305/article/details/114042539

版权

本文介绍了如何运用R语言进行考研英语(二)单词频率统计。作者首先从网络收集2013-2018年的考研英语(二)真题并保存为txt格式，然后通过R语言的jiebaR包进行中文分词，去除停用词，最后统计并输出单词出现的频率。涉及的R包包括jiebaR和plyr，统计结果以CSV文件形式导出。

摘要由CSDN通过智能技术生成

通过R语言统计考研英语(二)单词出现频率

大家对英语考试并不陌生，首先是背单词，就是所谓的高频词汇。厚厚的一本单词，真的看的头大。最近结合自己刚学的R语言，为年底的考研做准备，想统计一下最近考研英语(二)真正单词出现的频率次数。

整体思路：

收集数据-->整理数据-->统计分析-->输出结果

使用工具：

`Rstudio，文本编辑器，CSV`

涉及到的包： "jiebaR"(中文分词引擎)，“plyr"，

第一步收集数据：

从网络搜索2013-2018考研英语二真题，存成txt格式。

第二步整理数据

针对每个文件进行简单整理，去除不必要的文字。例如：”2017年全国硕士研究生入学统一考试英语“、”答案 “，或者乱码之类。手工完成。

第三步：统计分析

3.1 打开R语言，安装所需要的包

install.packages("jiebaRD") #安装jiebaR之前先安装"jiebaRD"

install.packages("jiebaR")

install.packages("plyr")-- 加载包--library(jiebaRD)

library(jiebaR)

library(plyr)

search()#查看已经安装的包

search() [1] ".GlobalEnv" "package:xlsx"[3] "package:xlsxjars" "package:rJava"[5] "package:wordcloud" "package:RColorBrewer" [7] "package:plyr" "package:jiebaR"[9] "package:jiebaRD" "tools:rstudio"[11] "package:stats" "package:graphics"[13] "package:grDevices" "package:utils"[15] "package:datasets" "package:methods"[17] "Autoloads" "package:base"

3.2加载文件，分析

setwd("d:/R") #设置文件所在根目录

--加载文件

test_file_2018

test_file_2017

test_file_2016

test_file_2015

test_file_2014

test_file_2013

test_file

cutter=worker() #设置分词引擎

segWords