R语言文本分析问题

1、加载包

#调入分词的包
library(Rwordseg)
library(rJava)
#调入绘制词云的包
library("RColorBrewer") 
library("wordcloud")

“Rwordseg”在分词之前会去掉文本中所有的(中文)符号,这样就会造成原分开的句子前后相连,本来分开的两个字也许连在了一起。
另外一个中文分词包“jieba”分词包不会去掉任何符号,而且返回的结果里也会有符号。所有小文本准确性上可能”Rwordseg”会有误差。
Rwordseg分词原理: 
Rwordseg是一个R环境下的中文分词工具,使用rjava调用Java分词工具Ansj。


2、载入本地词典,可先从搜狗词库官网下载所需的词库,然后再载入

词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。


(1)  安装词典
installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)
dictname 是自定义词典的名称(英文)
dicttype 默认是txt
load 表示安装后是否自动加载到内存,默认是TRUE

installDict("F:/大数据/R文本分析/词库/常用词语.scel","常用词语")  

(2)    listDict() 显示安装的词典


(3)    uninstallDict() 删除安装的词典
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值