可视化机器学习工具软件的比较分析研究

可视化机器学习工具软件的比较分析研究

Ø   摘要

近年来,随着人脸识别、语音识别等技术的突破性进展,隐藏在它们背后的底层技术也引起工程和研究人员的高度重视,譬如机器学习。然而,机器学习是一个入门门槛相对比较高的技术领域,大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取,算法选择,参数调优和模型验证上,因此一个方便高效的可视化工具,对于降低用户的机器学习学习曲线、提升工作效率显得尤为重要。

本报告主要从开源和商业领域选取了WEKA、RapidMiner、KNIME、明略、东软RealRec五款具有行业代表性的可视化机器学习工具,首先对它们进行功能性分析,剖析并总结各工具的核心特点,然后从工具支持机器学习算法程度、可视化能力、不同用户群学习难易度、对主流大数据平台支持程度以及软件成熟度和使用成本六个维度进行比较,通过对比发现它们各自的优缺点和适用范围,为使用者在今后机器学习工作中提供技术选型建议。

 

Ø   正文


一、引言


近年来,随着人脸识别、语音识别等技术的突破性进展,隐藏在他们背后的底层技术也引起工程和研究人员的高度重视,譬如机器学习。机器学习是人工智能领域的一个核心研究方向,它是一个多学科交叉的产物,在很多应用领域发挥了重要的实用价值,特别是在数据挖掘、语音识别、图像识别、机器人、信息安全等领域取得了瞩目的成果。然而,机器学习也是一个入门门槛相对比较高的技术领域,大部分的技术人员都聚焦在特征提取,算法选择和参数调优上,而非算法实现和优化,因此一个方便高效的工具,便是十分重要。

       目前机器学习领域大量的工具都是编程性的机器学习库,譬如R、Python以及深度学习库caffe、tensorflow等,这些机器学习工具都具有一定的门槛,学习曲线比较高,不适合一般的业务和数据分析人员。因此市场上也出现了一系列的可视化机器学习工具,用于降低相关技术人员的学习曲线,提升工作效率。譬如,在国外市场,RapidMiner和KNIME长期处于Gartner高级分析平台魔力象限领导者位置;在国内,明略DataInsight是领域的新锐,并行算法优化多,获得2016年大数据龙头企业奖;东软RealRec已在几个行业中得到应用;而在纯开源领域WEKA绝对是可视化机器学习的佼佼者。

鉴于RapidMiner、KNIME、DataInsight、东软RealRec以及WEKA在可视化领域的代表性和开放性,本文选取了上述这四种可视化机器学习工具,对它们进行概述和分析,总结其各自的特点,并通过对比发现它们各自的优缺点和适用范围,为使用者在今后的选择过程中提供帮助。


二、机器学习工具功能特点分析


由于数据挖掘领域使用了大量的机器学习算法,因此,机器学习工具软件一般隶属于数据挖掘工具,是数据挖掘工具的子集。


(一)WEKA


1.  概况


WEKA是一款免费开源的机器学习和数据挖掘可视化工具软件,其操作简便,运行速度快,尤其适合小规模的机器学习建模,是机器学习入门的不二选择。


图1:WEKA建模示意图


2.  特点


WEKA Knowledge Flow 具有以下功能特点:

(1) 可移植性。WEKA基于Java 编程语言进行操作,从而几乎任何现代计算平台都可以运行。

(2) 支持标准的机器学习任务,包括数据预处理、聚类、分类、回归以及特征选择。各方面任务特点如下:

ü  数据预处理任务从数据库、CSV 文件等输入数据,并使用过滤算法对数据进行预处理。这些过滤器可用于转换数据(例如连续型数值属性变成离散型),从而根据具体的标准删除实例和属性。

ü  关联分析任务提供了不同的关联规则学习算法,譬如Apriori或FP-growth等,方便找出数据属性之间所有重要的关联关系。

ü  分类任务提供了贝叶斯、决策树、随机森林等不同的分类器进行数据分类学习,此外,使用户应用分类和回归算法的结果数据集,去评估预测模型产生结果的准确性,并可视化错误预测、ROC 曲线和模型本身(如果模型是适合可视化的,如贝叶斯)。

ü  聚类面板给WEKA提供了聚类技术,如简单的K-Means算法,也可以用期望最大化算法进行混合正态分布的学习。

ü  特征选择属性任务提供了数据集中大多数预测属性的识别算法。

(3) WEKA KnowledgeFlow的所有技术是建立在数据可作为一个单一的平面文件或关系这个假设前提上的,其中每个数据点被设计成一个固定数量的属性(通常是数字或名义的属性,但一些其它的属性类型也被支持)。因此WEKA Knowledge Flow 不能进行多位关系数据挖掘,但有独立的软件可以将连接的数据库表转换成一个单一的表,使其可以使用WEKA 进行处理。


(二)RapidMiner


1.  概况


RapidMiner是集数据挖掘,机器学习,预测分析和商业智能为一体的可视化工具软件,包括文本挖掘、多媒体挖掘、功能设计、数据流挖掘、集成开发方法和分布式数据分析等。本文主要对RapidMiner 7.1 进行比较研究。


图2:RapidMiner建模示意图


2.  特点


RapidMiner(以RapidMiner V7为例)具有以下特点:

(1) 包含完全集成的机器学习库WEKA,提供关于数据集成、转换和建模方法的最全面的机器学习解决方案。

(2) 免费提供大量的数据抽取功能。包括Oracle、IBM DB2、MS SQL Server、 MySQL、Ingres、Postgres、Teradata 等所有常见的数据库。支持Excel、SPSS、CSV、Dbase、Arff、 DasyLab等多种格式的数据源,以及

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值