如何用 RapidMiner 6.4 进行中文分词

背景介绍:RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成。该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能。您现在可以在 RapidMiner 流程里面执行 R 代码, 可以将数据传给 R,在 R 脚本被执行后将 R 代码执行结果传回 RapidMiner。由于该集成被完全进行了重写,这样不仅 RapidMiner StudioRapidMiner Server 安装和配置更加容易,而且采用一种更加稳定和安全的集成解决方案。R 集成作为一个叫 R Scripting (R脚本)的新扩展出现,取代了之前的 R 扩展。

长期以来,对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈,下面我们将介绍一下如何利用 RapidMiner Studio 6.4 进行中文分词。

首先,我们需要明确的一个问题是,无论是什么分析软件,在进行中文分词的时候都必须借助于语料库,通过对将现有中文文本与语料库中词汇进行匹配,找到中文分词依据。此处我们将集成 R 扩展,进行中文分词。
以下为基本步骤:

步骤一:查看您现有版本是否已将安装 Rscripting 的扩展,若没安装,可进入 help-Marketplace( Update and Extensions) 搜索 Rscripting 进行安装更新。
这里写图片描述
R-scripting-extension
步骤二:在R中安装与语料库(我们装入当前流行的Rwordseg包)
步骤三:在Rapidminer 6.4.0 中进行中文分词

我们以包含句子“中华人民共和国成立于1949年”的表格为例,将数据表格导入到 RapidMiner 中,并运用 Execute R 算子,如图:

这里写图片描述

R-excution
在 Execute R 中,写入代码如下:

rm_main = function(data)
{
library(Rwordseg)#调用 Rwordsegdata2<-as.data.table(segmentCN(data$Sentence))
return(data2)
}

结果视图如下,在 Statistics 中可以看到属性的统计数据如下:

这里写图片描述

点开最右侧的 Values 即可以看到对于每个词的词频统计:

这里写图片描述

以上是如何用 RapidMiner Studio 6.4 进行中文分词以及如何进行词频统计,希望以上信息能够帮到大家。

RapidMiner,前称Rapid-I,公司于2007年在德国多特蒙德成立,目前总部位于美国麻州Cambridge,并在英国,德国,匈牙利设有分部, 中国区总代理位于上海。

RapidMiner是世界领先的数据解决方案供应商,整合了数据挖掘,机器学习,文本分析,预测分析,商业分析。RapidMiner 连续两年(2014,2015)被Gartner评为高级分析平台领域的领导者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值