1、加载包
#调入分词的包
library(Rwordseg)
library(rJava)
#调入绘制词云的包
library("RColorBrewer")
library("wordcloud")
“Rwordseg”在分词之前会去掉文本中所有的(中文)符号,这样就会造成原分开的句子前后相连,本来分开的两个字也许连在了一起。
另外一个中文分词包“jieba”分词包不会去掉任何符号,而且返回的结果里也会有符号。所有小文本准确性上可能”Rwordseg”会有误差。
Rwordseg分词原理:
Rwordseg是一个R环境下的中文分词工具,使用rjava调用Java分词工具Ansj。
2、载入本地词典,可先从搜狗词库官网下载所需的词库,然后再载入
词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。
(1) 安装词典
installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)
dictname 是自定义词典的名称(英文)
dicttype 默认是txt
load 表示安装后是否自动加载到内存,默认是TRUE
installDict("F:/大数据/R文本分析/词库/常用词语.scel","常用词语")
(2) listDict() 显示安装的词典(3) uninstallDict() 删除安装的词典