Cloudera旗下的机器学习开源工具Oryx


Hadoop发行商Cloudera去年收购伦敦的创业公司Myrrix时,并未引起业界太多关注,其后Cloudera也很少宣传公司在机器学习方面的技术。但是Myrrix的的技术和其创始人Sean Owen在机器学习方面的价值和影响力不容小觑。

Owen目前正在开发一个开源机器学习项目——Oryx(大羚羊,Cloudera还销售一款产品叫黑斑羚,Impala)。

Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎。随着数据的不断流入,Oryx还将支持自我更新。

无论从建模还是部署,Oryx都可以随需扩展,Owen认为这是Oryx与Hadoop的传统“甜蜜点”——探索性分析和运营性分析最大的不同。

Owen认为传统的在Hadoop上部署机器学习的技术——Apache Mahout已经走到尽头。

“Mahout受制于第一代MapReduce只能处理批任务的局限,用户需要做大量的工作才能搭建并让机器学习系统运转起来,而Myrrix重写了Mahout,解决了所有老问题。如果Mahout还有药可救,Cloudera就不会收购Myrrix。Oryx差不多有90%的代码都来自Myrrix,也有一些代码来自Cloudera”Owen说道。

 

人人都能使用的开源推荐引擎?

Oryx的定位不是机器学习算法的程序库,Owen关注的重点有四个:回归、分类、集群和协作式过滤(也就是推荐)。其中推荐系统非常热门,Owen正在与几个Cloudera的客户合作,帮他们使用Oryx部署推荐系统。

oryx architecture-推荐引擎开发工具

将Oryx打造成开发推荐系统的标准化工具的做法将使这个项目赢得极大关注,因为推荐系统几乎已经成了主流网站的标配,无论是电商还是内容网站都需要推荐系统提高网站的用户体验和转化率。但是推荐引擎技术目前面临的最大问题就是缺乏标准和开源工具。

致力于推荐技术标准化的公司不仅是Oryx一家,另外一家云计算创业公司Mortar Data也在积极推动用户推荐引擎技术的开发,并展现其开源推荐框架的优点。其他一些公司注入Expect Labs虽然没有开源,但试图通过人工智能API接口实现推荐系统的自动化。

 

目前还不是一个产品

Owen认为Cloudera的所有客户(以及绝大多数的Hadoop用户)最终都想要部署运营型机器分析系统——不仅仅是推荐,Oryx将来有可能成为实现工具,但目前Oryx还只是一个实验性项目。

目前Owen还在花费大量时间担当Apache Spark项目的贡献者,他想重写Oryx,将Spark而不是MapReduce作为主要的处理框架,因为Spark已经成为下一代大数据应用的热门技术。由于性能和速度优于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求,包括基于Oryx开发的实时机器学习系统。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Cloudera Certified Data Engineer是由Cloudera提供的大数据工程师认证,旨在验证个人在大数据领域的技能和知识。通过获得该认证,您可以证明自己具备设计、建模、构建和维护批量和实时大数据处理系统的能力。 要学习Cloudera Certified Data Engineer认证,您可以按照以下步骤进行: 1. 熟悉考试要求:详细了解Cloudera Certified Data Engineer认证的考试要求和考试内容。这将帮助您了解需要掌握的知识领域和技能。 2. 学习相关知识:根据考试要求,学习和掌握大数据处理和管理的基本概念、工具和技术。这可能包括Hadoop、Spark、Hive、Impala等相关的技术和框架。 3. 参加培训课程:Cloudera提供了一系列培训课程,包括CDH(Cloudera’s Distribution Including Apache Hadoop)和Cloudera Data Engineer等。参加这些培训课程可以帮助您系统地学习和掌握相关技术。 4. 实践项目:通过参与实际的大数据项目,将所学知识应用到实践中。这将帮助您更好地理解和掌握工作中的实际应用场景和技能要求。 5. 准备考试:使用Cloudera官方提供的考试指南和样题,进行考试准备。这将帮助您熟悉考试的结构和类型,并评估自己的准备程度。 6. 参加考试:预约并参加Cloudera Certified Data Engineer的考试。考试通常需要在认证中心或在线进行。 请注意,Cloudera Certified Data Engineer认证是一项有一定难度的认证,需要对大数据处理和管理有深入的理解和实践经验。除了官方提供的培训和准备资料外,您还可以参考一些相关的书籍、在线教程和实践项目来加强自己的学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值