Spark发展现状与战线

最新推荐文章于 2024-11-04 14:33:38 发布

原创最新推荐文章于 2024-11-04 14:33:38 发布 · 8.3k 阅读

3 ·

CC 4.0 BY-SA版权

内存计算同时被 3 个专栏收录

18 篇文章

订阅专栏

实时计算

14 篇文章

订阅专栏

Spark

5 篇文章

订阅专栏

前言

现今Spark正是风头正劲时，Spark本是UCBerkeley的AMPLab诞生的项目，后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理，到交互式查询，一直到图计算和机器学习，可谓摆开了架势、拉长了战线，一方面挑战老前辈Hadoop和MapReduce，另一方面又随时准备迎接同样的后起之秀的挑战。

大数据的今天

今天的大数据系统生物圈百花齐放，有已经如日中天的通用批处理MapReduce，也有针对不同应用场景而特殊化的处理系统。

全栈式的Spark

Spark作为后起之秀，以其RDD模型的强大表现能力，不断完善自己的功能，逐渐形成了一套自己的生物圈，提供了full-stack的解决方案。其中主要包括Spark内存中批处理，Shark交互式查询，Spark Streaming流式计算三大部分。此外还有GraphX和MLBase提供的常用图计算和机器学习算法。

而Spark由于采用Scala编写，底层使用Akka，代码十分简洁。而且借助RDD的强大表现力，Spark各种子项目的代码量也很小。

Spark使用情况

援引自一篇博文，看一下Spark在互联网界的使用情况。

1. 腾讯

“广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势，围绕“数据+算法+系统”这套技术方案，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上，支持每天上百亿的请求量。

基于日志数据的快速查询系统业务构建于Spark之上的Shark，利用其快速查询以及内存表等优势，承担了日志数据的即席查询工作。在性能方面，普遍比Hive高2-10倍，如果使用内存表的功能，性能将会比Hive快百倍。

2. Yahoo

“Yahoo将Spark用在Audience Expansion中的应用。Audience Expansion是广告中寻找目标用户的一种方法：首先广告者提供一些观看了广告并且购买产品的样本客户，据此进行学习，寻找更多可能转化的用户，对他们定向广告。Yahoo采用的算法是logistic regression。同时由于有些SQL负载需要更高的服务质量，又加入了专门跑Shark的大内存集群，用于取代商业BI/OLAP工具，承担报表/仪表盘和交互式/即席查询，同时与桌面BI工具对接。目前在Yahoo部署的Spark集群有112台节点，9.2TB内存。

3. 淘宝

“阿里搜索和广告业务，最初使用Mahout或者自己写的MR来解决复杂的机器学习，导致效率低而且代码不易维护。淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。将Spark运用于淘宝的推荐相关算法上,同时还利用Graphx解决了许多生产问题，包括以下计算场景：基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。

4. 优酷土豆

“优酷土豆在使用Hadoop集群的突出问题主要包括：第一是商业智能BI方面，分析师提交任务之后需要等待很久才得到结果;第二就是大数据量计算，比如进行一些模拟广告投放之时，计算量非常大的同时对效率要求也比较高，最后就是机器学习和图计算的迭代运算也是需要耗费大量资源且速度很慢。

最终发现这些应用场景并不适合在MapReduce里面去处理。通过对比，发现Spark性能比MapReduce提升很多。首先，交互查询响应快，性能比Hadoop提高若干倍;模拟广告投放计算效率高、延迟小(同hadoop比延迟至少降低一个数量级);机器学习、图计算等迭代计算，大大减少了网络传输、数据落地等，极大的提高的计算性能。目前Spark已经广泛使用在优酷土豆的视频推荐(图计算)、广告业务等。