如何用 RapidMiner 6.4 进行中文分词

最新推荐文章于 2024-10-14 07:56:10 发布

Helloaudrey

最新推荐文章于 2024-10-14 07:56:10 发布

阅读量4k

点赞数

文章标签： studio RapidMiner 数据挖掘数据分析 R

背景介绍：RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成。该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能。您现在可以在 RapidMiner 流程里面执行 R 代码，可以将数据传给 R，在 R 脚本被执行后将 R 代码执行结果传回 RapidMiner。由于该集成被完全进行了重写，这样不仅 RapidMiner Studio 和 RapidMiner Server 安装和配置更加容易，而且采用一种更加稳定和安全的集成解决方案。R 集成作为一个叫 R Scripting （R脚本）的新扩展出现，取代了之前的 R 扩展。

长期以来，对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈，下面我们将介绍一下如何利用 RapidMiner Studio 6.4 进行中文分词。

首先，我们需要明确的一个问题是，无论是什么分析软件，在进行中文分词的时候都必须借助于语料库，通过对将现有中文文本与语料库中词汇进行匹配，找到中文分词依据。此处我们将集成 R 扩展，进行中文分词。
以下为基本步骤：

步骤一：查看您现有版本是否已将安装 Rscripting 的扩展，若没安装，可进入 help-Marketplace( Update and Extensions) 搜索 Rscripting 进行安装更新。
这里写图片描述
R-scripting-extension
步骤二：在R中安装与语料库（我们装入当前流行的Rwordseg包）
步骤三：在Rapidminer 6.4.0 中进行中文分词

我们以包含句子“中华人民共和国成立于1949年”的表格为例，将数据表格导入到 RapidMiner 中，并运用 Execute R 算子,如图：

这里写图片描述

R-excution
在 Execute R 中，写入代码如下：

rm_main = function(data)
{
library(Rwordseg)＃调用 Rwordseg 库
data2<-as.data.table(segmentCN(data$Sentence))
return(data2)
}