淘宝明风:基于Graphx的图计算实践分享

以下是记者采访原文:

- 什么原因吸引你钻研Spark技术?

研究Spark是从2012年的0.4版本开始的,当时Hadoop和Hive在阿里的成熟度已经达到了一个很高的程度,但是我感觉它们只解决了BI的问题,对于数据挖掘和机器学习算法,它们不能给出很好的方案,我看到有些做搜索和广告的同学,用Mahout或者其它自己写的MR,很慢很吃力的解决复杂的机器学习问题。我感觉这个不是一个正确的方向!所以我开始寻找其它产品和方案。这个时候Spark出现了,当时只有最简单的2个LR和KMeans方法,但是通过它们,我感觉到了Spark的潜力,我认为这是一个正确的方向。于是我就开始在这个方向上做一些研究,并将其用于淘宝的推荐相关算法上。目前来看,这个决定是挺正确的。   

- 对于解决哪些问题Spark独具优势?

Spark现在包含了挺多的子模块,功能很丰富。但是对于我来看,它本质上是为了解决这3类问题:  

              a. 多次迭代的机器学习算法

              b. 高计算复杂度的算法

              c. 准实时海量数据计算

- 目前企业应用Spark最大的困难是什么?

对于企业来说,搭建Spark配合现有平台,这个过程还是有一定搭建成本的,需要有比较专业的团队维护。     

另外对于普通的算法开发人员,Spark的学习成本还是有点高,Scala的切入不是很容易,入门曲线陡峭。不过由于Spark已经支持Java和Python,所以相信这个问题会越来越弱化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值