以下是记者采访原文:
- 什么原因吸引你钻研Spark技术?
研究Spark是从2012年的0.4版本开始的,当时Hadoop和Hive在阿里的成熟度已经达到了一个很高的程度,但是我感觉它们只解决了BI的问题,对于数据挖掘和机器学习算法,它们不能给出很好的方案,我看到有些做搜索和广告的同学,用Mahout或者其它自己写的MR,很慢很吃力的解决复杂的机器学习问题。我感觉这个不是一个正确的方向!所以我开始寻找其它产品和方案。这个时候Spark出现了,当时只有最简单的2个LR和KMeans方法,但是通过它们,我感觉到了Spark的潜力,我认为这是一个正确的方向。于是我就开始在这个方向上做一些研究,并将其用于淘宝的推荐相关算法上。目前来看,这个决定是挺正确的。
- 对于解决哪些问题Spark独具优势?
Spark现在包含了挺多的子模块,功能很丰富。但是对于我来看,它本质上是为了解决这3类问题:
a. 多次迭代的机器学习算法
b. 高计算复杂度的算法
c. 准实时海量数据计算
- 目前企业应用Spark最大的困难是什么?
对于企业来说,搭建Spark配合现有平台,这个过程还是有一定搭建成本的,需要有比较专业的团队维护。
另外对于普通的算法开发人员,Spark的学习成本还是有点高,Scala的切入不是很容易,入门曲线陡峭。不过由于Spark已经支持Java和Python,所以相信这个问题会越来越弱化。