大数据挖掘工具

目录

 

1.简述常用机器学习系统和大数据挖掘工具有哪些

2.Mahout的适用场合与特点有哪些?

3.Spark MLlib的适用场合和特点有哪些?

4.简述SystemML的体系结构

5.简述Parameter Server的工作原理

6.简述Scikit-Learn的主要模块。

7.简述Weka的工作原理。

8.基于R语言的机器学习库有哪些?

9.简述H2O机器学习系统的主要功能。


1.简述常用机器学习系统和大数据挖掘工具有哪些

   (1)Mahout,Apache Mahout是一个由Java语言实现的开源的可拓展的机器学习算法库。

   (2)Spark MLlib,运行在Spark平台上专门为集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集。

  (3)其他数据挖掘工具,有SystemML、GraphLab、Parameter Server、Scikit-Learn、Weka、基于R语言的机器学习库、H2O、腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana、百度大规模机器学习框架ELT与机器学习云平台BML、阿里数据挖掘平台DT PAI等。

2.Mahout的适用场合与特点有哪些?

   Apache Mahout主要运作于MapReduce计算模型上,Mahout具有高吞吐、高并发、高可靠的特点,这就保证了其适合于大规模数据的机器学习。

3.Spark MLlib的适用场合和特点有哪些?

   Spark MLlib运行在Spark平台上专门为集群上并行运行而设计,适用于大规模数据集。运行时间和计算成本较低,适用于数据挖掘算法。

4.简述SystemML的体系结构

                                                  

5.简述Parameter Server的工作原理

   基于模型参数数据的抽样方法,把所有机器学习算法抽象为对学习过程中一组模型参数的管理和控制,并提供对大规模场景下大量模型参数的有效管理与访问。

                                           

 

6.简述Scikit-Learn的主要模块。

   Scikit-Learn是基于Python的机器学习库,建立在Numpy、Scipy和matplotlib基础之上,使用BSD开源许可证,主要模块有分类、回归、聚类、数据降维、模型选择与数据预处理。

7.简述Weka的工作原理。

   Weka作为一个基于Java的开源数据挖掘平台,实现了大量的机器学习算法,使用GUI界面与数据文件交互并生成可视化的结果,提供了通用API,可以将Weka嵌入应用程序完成特定任务,通过接口,开发者还可加入自行实现的数据挖掘算法。

8.基于R语言的机器学习库有哪些?

   主要有:

9.简述H2O机器学习系统的主要功能。

   (1)为应用提供快速的机器学习引擎。

  (2)通过H2O提供的API接口,开发者可以将H2O提供的机器学习服务整合进自己的应用。

  (3)提供易用的WebUI、R、Python、Scala、Java、JSON和Javascript接口,可连接到HDFS、S3、SQL与NoSQL数据源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值