备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具

转载 2016年08月31日 16:05:24

SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。

       SPSS不用多说,一款成功的商业数据分析软件,涵盖了统计分析、数据挖掘分析等各种数据分析方法。界面简单易用,分析过程定义时非常直观方便。因为,没有源码,无从知道其过程的调度机制。

       RapidMiner一款出色的开源数据分析工具。有非常丰富的数据分析算法。过程定义界面也简单易用,帮助文档也很全面。过程定义时的每一步操作都有端口的概念,不同的端口可以接入和输出不同意义的数据,但数据的结构是一样的,这意味着可以将任意两个端口进行连接,只是有时无法得到正确的结论。粗看了下RapidMiner的源码,发现其整个过程是单线程调用的。这样的调用方式,在处理较大数据集时可能会有一定的影响。其过程定义文件是用xml语言进行描述的,格式很工整,体现了前期良好的设计,唯一不足的是,将调试用的断点也设计进了过程定义文件当中。

       KNIME也是一款出色的开源数据分析工具,但其使用起来不是很好上手。其每一步操作与RapidMiner一样,也带有端口的概念。但是其端口间的连接关系有严格的约定。就是一个操作的输出端口只能连其它固定几种操作的输入端口,否则你是无法将这两个操作建立前后执行顺序的。从一定意义上讲,这样的约束可以帮助人们减少定义过程中的错误。单就程序实现讲,其复杂度也是提升了的。但对于笔者这样的使用者来说,怎么都创建不了一个分析过程,(主要是用的不熟,总违反端口连接约束)顿时失去大半兴趣,没有对其进行再进一步的研究了。

       Kettle最早的定位是一个ETL工具,它有非常丰富的数据处理操作,后面的版本中也加入了部分数据分析功能。其过程定义界面也非常简单直观,与SPSS一样,操作都没有端口的概念。操作间的关系是建立在操作与操作之上的。但其设计中,正因为没有端口概念的出现,当其进行错误信息的处理流程时,我们看其过程定义生成的xml文件会发现,错误流定义在XML文件中加入的很不规整,是以补丁的方式加入的,影响了系统整体设计的完整性与美观度。不过,其可以对错误流进行处理的概念是这几款产品中独有的,还是要特别表扬一下。另外,通过Kettle的源代码我们可以知道,其调度是多线程并发进行的。即读数据操作每读到一定的数据就传给后面的处理操作,然后继续读数据。在数据很大的情况下,有可能是读操作还在继续读数据,而早期读出的数据在处理完后,都在向外写出数据了。Kettle的调用机制更利于对较大数据的分析处理,占用的内存相对会较少,多线程并发的处理速度相对也会比较高。

       以上四款工具都是单机版工具,都不太适用于对海量数据的分析处理。


原文在此处:http://www.cnblogs.com/javawebsoa/archive/2013/08/02/3233667.html

deeplearning学习

首先几个库: SymPy:用于python中符号计算,如泰勒展开,不定积分,定积分等。 Theano:可以对数学表达式求值,如根据模型进行训练,进行深度神经网络的学习。模型的优化等Theano会自动处...

TensorFlow学习

TensorFlow一个非常好的网站: https://www.tensorflow.org/get_started/mnist/pros (里面从mnist字体库的学习开始) 网站中也包括了ten...

你以为的SPSS只是简单的数据分析软件吗?

如果你以为,SPSS只是一个表格界面、添加数据然后进行算法的分析软件。那你基本已经忽略了它其他的才华。Spss的功能不仅限于分析计算,它还有商业智能、预测分析、财务绩效与战略管理的能力。不但能提供对当...

KNIME 数据分析平台

一、KNIME简介1.历史发展 KNIME的发展始于2004年1月,由康斯坦茨大学的软件工程师团队作为专有产品。由Michael Berthold领导的原始开发团队来自硅谷的一家公司,为制药行业提...

RapidMiner7数据分析与挖掘实战 教程

  • 2016年06月30日 15:31
  • 19.09MB
  • 下载

【备忘】2017年数据分析与机器学习实战到经典案例全套高清视频教程(基于Python3.5 anaconda4.2)15G

2017年数据分析与机器学习实战到经典案例全套高清视频教程(基于Python3.5 anaconda4.2)15G...

【备忘】2017Spark 2.0大型项目实战:移动电商app交互式数据分析

2017Spark 2.0大型项目实战:移动电商app交互式数据分析

【备忘】2017年最新python机器学习与数据分析实战视频教程

2017年最新python机器学习与数据分析实战视频教程

数据挖掘RapidMiner工具使用----聚类K-Means案例分析

这里以学校的学生成绩进行聚类分析为案例 1、背景        随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新...

spss、R语言、Python数据分析系列(6):R语言adf单位根检验

data
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具
举报原因:
原因补充:

(最多只允许输入30个字)