大数据开发:基于Hadoop的机器学习框架

大数据成为热门关注的同时,机器学习、人工智能等话题热度也在不断攀升,尤其是在现阶段来说,大数据发展到一定阶段,与机器学习、人工智能等方面都存在斩不断的联系,因此很多人也在关注机器学习Hadoop框架。今天,我们就基于Hadoop来聊聊机器学习框架的相关话题。

在很多人的理解当中,Hadoop相关性最高的是大数据,但实际上在机器学习上,Hadoop同样有着很不错的应用价值,因为机器学习当中也涉及到大批量的数据处理,而这是Hadoop框架的强项,通过分布式架构,可以实现大批量数据的高效处理。
 

机器学习Hadoop框架


机器学习Hadoop框架,其实主要起到技术支持的,还是分布式架构。分布式架构,通过在廉价的服务器上搭建起集群环境,实现对大批量数据的分析处理,而针对更深入的机器学习,还可以结合Apache Singa平台来开发。

Apache Singa主要就是针对大型数据集上训练深度学习的通用分布式深度学习平台,我们可以发现其核心技术还是分布式架构,但是在分布式架构上,还支持当前主流的一些深度学习模型,包括前馈模型(卷积神经网络,CNN)、能量模型(受限玻尔兹曼机,RBM和循环神经网络,RNN)等。

另外,基于Hadoop环境,还可以引入H2O来实现机器学习任务处理,易于使用的WebUI和熟悉的界面,支持常见的数据库和不同文件类型,可以与Hadoop无缝衔接。

而基于Hadoop的Spark,还有MLlib,这也可以为机器学习提供机器学习库,目的是让机器学习实现可伸缩性和易操作性,它由常见的学习算法和实用程序组成,包括分类、回归、聚类,协同过滤、降维,同时包括底层优化原生语言和高层管道API。

目前来说,机器学习Hadoop框架还有待进一步的挖掘,因为机器学习的进一步发展同样需要依靠分布式技术来支撑,Hadoop的核心架构就是分布式架构,不管是大数据还是机器学习,Hadoop都有很大的施展空间。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
让天下没有难做的大数据模型!功能下面是弥勒佛框架解决的问题类型,括号中的斜体代表尚未实现以及预计实现的时间监督式学习:最大熵分类模型(max entropy classifier),决策树模型(decision tree based models,2014 Q1)非监督式学习:聚类问题(k-means,2014 Q1)在线学习:在线梯度递降模型(online stochastic gradient descent)神经网络(2014 Q2/3)项目实现了下面的组件多种数据集(in-mem,skip)多种评价器(precision,recall,f-score,accuracy,confusion)和交叉评价(cross-validation)多种优化器:协程并发L-BFGS,梯度递降(batch, mini-batch, stochastic),带退火的学习率(learning rate),L1/L2正则化(regularization)稀疏向量(sparse vector)以存储和表达上亿级别的特征特征辞典(feature dictionary)在特征名和特征ID之间自动翻译    现有的机器学习框架/软件包存在几个问题:无法处理大数据:多数Python,Matlab和R写的训练框架适合处理规模小的样本,没有为大数据优化。不容易整合到实际生产系统:standalone的程序无法作为library嵌入到大程序中。模型单一:一个软件包往往只解决一个类型的问题(比如监督式或者非监督式)。不容易扩展:设计时没有考虑可扩展性,难以添加新的模型和组件。代码质量不高:代码缺乏规范,难读懂、难维护。    弥勒佛项目的诞生就是为了解决上面的问题,在框架设计上满足了下面几个需求:处理大数据:可随业务增长scale up,无论你的数据样本是1K还是1B规模,都可使用弥勒佛项目。为实际生产:模型的训练和使用都可以作为library或者service整合到在生产系统中。丰富的模型:容易尝试不同的模型,在监督、非监督和在线学习等模型间方便地切换。高度可扩展:容易添加新模型,方便地对新模型进行实验并迅速整合到生产系统中。高度可读性:代码规范,注释和文档尽可能详尽,适合初学者进行大数据模型的学习。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值