RapidMiner数据挖掘入门

RapidMiner数据挖掘入门之一:概要

 
1 简介
RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次 投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。

RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML文件加以描述,并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的,其中还集成了WEKA的学习器和评估方法,并可以与R语言进行协同工作。


2 学习资源
软件的帮助菜单中自带了26个tutorial,可以帮助用户进行基本入门。另外在sample有也有不错的案例数据和流程可供参考学习。从官方网站可以下载到一份简单的用户手册,另外还有相应的 资源站提供了很好的视频教程。

3 基本概念
rapidminer中的功能均是通过连接各类算子(operataor)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输入出模型结果。算子可以看做是执行某种具体功能的函数,不同算子有不同的输入输出特性。

大体上有这样几类算子:
  • 流程控制类,是为了实现循环和条件功能。
  • 数据输入和输出类,是为了实现数据交换。
  • 数据转换类,包括各种数据抽取、清洗整理功能;
  • 建模类,包括分类回归建模,关联分析、聚类分析、集成学习等功能。
  • 评估类,包括多重交叉检验,自助法检验等功能
软件有两个主要的工作区,一个是流程设计工作区,本区左侧可以看到各类算子和库,中间的主流程设计区,下方是错误提示区,右侧是参数设置区。另一个是结果显示工作区。
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值