R语言文本分析问题

最新推荐文章于 2024-08-07 12:28:24 发布

quzihen

最新推荐文章于 2024-08-07 12:28:24 发布

阅读量3.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quzihen/article/details/75557300

版权

1、加载包

#调入分词的包
library(Rwordseg)
library(rJava)
#调入绘制词云的包
library("RColorBrewer")
library("wordcloud")

“Rwordseg”在分词之前会去掉文本中所有的（中文）符号，这样就会造成原分开的句子前后相连，本来分开的两个字也许连在了一起。
另外一个中文分词包“jieba”分词包不会去掉任何符号，而且返回的结果里也会有符号。所有小文本准确性上可能”Rwordseg”会有误差。
Rwordseg分词原理：
Rwordseg是一个R环境下的中文分词工具，使用rjava调用Java分词工具Ansj。

2、载入本地词典，可先从搜狗词库官网下载所需的词库，然后再载入

词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。

（1）安装词典
installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)
dictname 是自定义词典的名称(英文)
dicttype 默认是txt
load 表示安装后是否自动加载到内存，默认是TRUE

installDict("F:/大数据/R文本分析/词库/常用词语.scel","常用词语")

（2） listDict() 显示安装的词典

（3） uninstallDict() 删除安装的词典

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

quzihen CSDN认证博客专家 CSDN认证企业博客

码龄10年

11: 原创

31万+: 周排名

92万+: 总排名

13万+: 访问

: 等级

1281: 积分

20: 粉丝

36: 获赞

10: 评论

171: 收藏

私信

关注

热门文章

分类专栏

python 3篇
统计学 2篇
R语言 2篇
mysql 5篇
excel 2篇

最新评论

便于理解假设检验的好例子
winnie_shi: 是不是应该取多次样本，然后求平均值啊？
oracle中去除重复字段
大鱼diary: 楼主，第一个部分删除。没有保留一份数据呢？也删了？
mysql自定义排序
quzihen: order by field(whcd,"初中","高中", "大专","本科","研究生","未知") ,field(自定义排序的字段无需加引号，后面是顺序)
python 安装jieba
quzihen: Spyder是一个python的集成开发环境，其优点是模仿Matlab环境，可以方便的查看和修改数组取值。之前用过另一个开发环境PTVS(Python Tools for Visual Studio)，顾名思义，是微软的Visual Studio的python开发环境，类似经典的vc，可以方便的设置断点进行debug，当然也可以用Visual Assist X助手的功能。接触Spyder也是偶然，至于这俩孰优孰劣，现在也不好说，先边用边体会吧。　　1.常用快捷键：　　Ctrl + 1: 注释/反注释　　Ctrl + 4/5: 块注释/块反注释　　Ctrl + L: 跳转到行号　　Tab/Shift + Tab: 代码缩进/反缩进　　Ctrl ＋I：显示帮助　　2. 可以在Ipython Console输入变量进行快速验证，类似matlab
python 安装jieba
quzihen: 安装语句前面加感叹号

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。