使用Rwordseg进行分词

最新推荐文章于 2019-02-20 20:00:32 发布

安迪亨利

最新推荐文章于 2019-02-20 20:00:32 发布

阅读量1.9k

点赞数

文章标签： R 文本挖掘 Rwordseg

本文链接：https://blog.csdn.net/Andy_Henry/article/details/25929943

版权

本文介绍了如何利用R语言中的Rwordseg包对电商网站商品评论进行文本挖掘。首先，通过爬虫获取数据并进行字数统计，然后详细展示了运用Rwordseg进行分词的代码实现。

摘要由CSDN通过智能技术生成

1、文本简介：

经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计：

$wc text.txt
0  121467 4694908

2、使用Rwordseg进行文本挖掘。

（1）使用R代码：

library(Rwordseg)
require(Rwordseg)

text <- readLines("text.txt") #输入
seg <- unlist(segmentCN(text)) #使用segmentCN进行分词

tag <- table(seg)
tbldf <- as.data.frame(tag)
freqord <- order(tbldf$Freq, decreasing=TRUE) #数据汇总 #见参考文献
final <- tbldf[freqord,][1:length(tag),] #最终结果

write.table(final, "final.csv", sep=",") #输出

（2）查看分词时间：

system.time(seg <- unlist(segmentCN(text)))
  user  system  elapsed 
 21.074   0.149  20.594

可见，对约135万字的文本进行挖掘需要约20秒。（OS X 10.9, i7, 16G）

3、参考文献

代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

安迪亨利

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Rwordseg中文分词画词云图

myself77的博客

06-16

759

一、 rJava的环境变量配置和分词代码（网上有具体安装步骤，比较麻烦，我安装了好久了才安装上）1. 下载jre最新版2. 打开环境变量：控制面板—系统—环境变量 or 我的电脑—属性a 新增变量“JAVA”，变量值=C:\Program Files\Java\jre6\binb PATH=C:\Program Files\Java\jre6\bin\server加载rJava包和Rwordse...

使用R语言进行中文分词

王亨的博客

09-14

2万+

使用R语言的Rwordseg包进行的简单的中文分词解析

参与评论您还未登录，请先登录后发表或查看评论

【R文本挖掘】中文分词Rwordseg

李松雨的专栏

07-17

1217

http://jliblog.com/app/rwordseg 有一个简单的中文说明文档下载安装方法： install.packages("Rwordseg", repos = "http://R-Forge.R-project.org") 注意在之前要安装好JAVA，并配置后JAVA环境 1. 分词操作：（1）segmentCN(strwords)

中文分词工具Rwordseg

默默耕耘，阶段爆发，取长补短，修炼身心

02-20

909

Rwordseg是一个R环境下的中文分词工具，引用Ansj包(使得Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域)支持行业词典、用户自定义词典，Ansj是开源的java中文分词工具，基于中科院ictclas中文分词算法，采用隐马尔科夫模型(HMM)。Rwordseg特点有三，一是分词准确，二是分词速度超快，三是可以导入自定义词库，也可导入搜狗输入法的细胞...

Rwordseg使用

weixin_30413739的博客

07-22

159

#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉 install.packages("rJava") install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source") #导入rJava 和Rwordseg library(rJava) library(Rwordse...

中文分词 Rwordseg包zip格式文件

05-16

不知道为什么资源分不能设为0，若没有资源分，可以去这里下载https://r-forge.r-project.org/R/?group_id=1054。...本人博客有记载Rwordseg安装记录，详情见https://blog.csdn.net/u013894429/article/details/80332999

R文本挖掘-中文分词Rwordseg

Erin的博客

07-24

1593

我们的数据分析工作，不仅仅有对数据的分析，还有对文字资料整合的统计分析。在进行词频统计之前，有一项必须要做的工作就是中文的分词。 1.语料库的处理语料库语料库是我们要分析的所有文档的集合中文分词将一个汉字序列切分成一个一个单独的词停用词数据处理的时候，自动过滤掉某些字或词，包括泛滥的词，例如web, 网站等，又如语气助词、副词、介词、连接词等，例如的，地，得。R 中的

Rwordseg包安装过程以及简单的中文分词

Wenny_Zhong的博客

09-28

1336

Rwordseg包的安装

R语言文本分词之——Rwordseg包

大数据技术派

12-29

995

Rwordseg是一个R环境下的中文分词工具，使用 rJava 调用 Java 分词工具 Ansj，所以需要安装并且配置java环境（也就是jdk）。Ansj 也是一个...

R语言文本挖掘（1）：分词（Rwordseg）

zhenglit的博客

07-10

2597

本文实现对文本的分词操作，并统计词频。一、分词运用R语言进行分词操作需要用到Rwordseg包，而Rwordseg依赖于rjava。 Rwordseg是一个R环境下的中文分词工具，引用了Ansj包，Ansj是一个开源的java中文分词工具，基于中科院的ictclas中文分词算法，采用隐马尔科夫模型（HMM）。Rwordseg有很多优点，一是分词准确，二是分词速度超快，三是可以导入自定义词库

R语言中的Rwordseg包详细使用教材

luoyexuge的专栏

10-16

9759

中文分词一直是一个不大容易解决的问题，Rwordseg包是一个很不错的包，之前的tm包效果实际不是很理想，当然还出现了一个jiebaR的包，这个跟python中的jieba有点像，不说了，具体上代码看看先把，下面的代码也是网上到处凑在一起整合的成的资料，基本上涵盖了Rwordseg包的使用方法： options(warn=-1) library(rJava) library(Rwordseg)

R语言数据分析挖掘实战

01-02

R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

热门推荐

素质云笔记

04-04

4万+

笔者寄语：与前面的RsowballC分词不同的地方在于这是一个中文的分词包，简单易懂，分词是一个非常重要的步骤，可以通过一些字典，进行特定分词。大致分析步骤如下：数据导入——选择分词字典——分词但是下载步骤比较繁琐，可参考之前的博客： R语言·文本挖掘︱Rwordseg/rJava两包的安装（安到吐血）一、数据导入、函数测试本次使用代码与案例

R语言中文分词——Rwordseg包加载

梅子微酸 - - CSDN博客

05-16

1176

准备用R语言做一个中文分词、然后绘制关键词云图，安装Rwordseg包时碰壁多次，现记录一下安装过程。系统： win 10 - 64位 java： 1.8.0 - 64位 RStudio：3.4.1 - 64位首先确保以下步骤正确完成，网上很容易找到教程或帮助，在此不再赘述： 1. 正确安装了 java，并且正确配置了环境变量； ...

require(Rwordseg)分析案例展示（未去冠词以及无意义的词）

IT届的小学生

12-27

589

看网络上很多朋友都在用“Rwordseg”程序包进行分词练习。我也忍不住进行了一次实验。首先，肯定是装程序包了，个人感觉是废话，纯凑字数。如下是我进行的联系，在网上找了一篇关于范爷的专访，看看能看出来什么吧。===========================================================================#第一步，文本分词requir

R语言中文分词jiebaR

路漫漫其修远兮吾将上下而求索

02-17

2万+

简介“结巴”中文分词的R语言版本，支持最大概率法（Maximum Probability）, 隐式马尔科夫模型（Hidden Markov Model）, 索引模型（QuerySegment）, 混合模型（MixSegment）, 共四种分词模式，同时有词性标注，关键词提取，文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。特性支持 Windows , Linux操

如何用R包做词频统计图（词云）？

workspace

11-20

2万+

词频统计词云分词

使用NLTK进行分词的代码