淘宝明风：基于Graphx的图计算实践分享

最新推荐文章于 2020-11-26 17:32:18 发布

jtjy

最新推荐文章于 2020-11-26 17:32:18 发布

阅读量471

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014429662/article/details/22490257

版权

以下是记者采访原文：

- 什么原因吸引你钻研Spark技术？

研究Spark是从2012年的0.4版本开始的，当时Hadoop和Hive在阿里的成熟度已经达到了一个很高的程度，但是我感觉它们只解决了BI的问题，对于数据挖掘和机器学习算法，它们不能给出很好的方案，我看到有些做搜索和广告的同学，用Mahout或者其它自己写的MR，很慢很吃力的解决复杂的机器学习问题。我感觉这个不是一个正确的方向！所以我开始寻找其它产品和方案。这个时候Spark出现了，当时只有最简单的2个LR和KMeans方法，但是通过它们，我感觉到了Spark的潜力，我认为这是一个正确的方向。于是我就开始在这个方向上做一些研究，并将其用于淘宝的推荐相关算法上。目前来看，这个决定是挺正确的。

- 对于解决哪些问题Spark独具优势？

Spark现在包含了挺多的子模块，功能很丰富。但是对于我来看，它本质上是为了解决这3类问题：

a. 多次迭代的机器学习算法

b. 高计算复杂度的算法

c. 准实时海量数据计算

- 目前企业应用Spark最大的困难是什么？

对于企业来说，搭建Spark配合现有平台，这个过程还是有一定搭建成本的，需要有比较专业的团队维护。

另外对于普通的算法开发人员，Spark的学习成本还是有点高，Scala的切入不是很容易，入门曲线陡峭。不过由于Spark已经支持Java和Python，所以相信这个问题会越来越弱化。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
淘宝明风：基于Graphx的图计算实践分享

以下是记者采访原文：- 什么原因吸引你钻研Spark技术？研究Spark是从2012年的0.4版本开始的，当时Hadoop和Hive在阿里的成熟度已经达到了一个很高的程度，但是我感觉它们只解决了BI的问题，对于数据挖掘和机器学习算法，它们不能给出很好的方案，我看到有些做搜索和广告的同学，用Mahout或者其它自己写的MR，很慢很吃力的解决复杂的机器学习问题。我感觉这个不是一个正
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。