大数据改变世界，Spark改变大数据——中国Spark技术峰会见闻

最新推荐文章于 2023-11-21 00:17:14 发布

周建丁

最新推荐文章于 2023-11-21 00:17:14 发布

阅读量673

点赞数

文章标签： glm 调度 Spark 大数据机器学习

本文链接：https://blog.csdn.net/happytofly/article/details/80123328

版权

作者：张相於，当当网推荐系统开发经理
责编：周建丁（zhoujd@csdn.net）

笔者5月15日参加了“中国云计算技术大会”中的“中国Spark技术峰会”，一天12场干货满满的演讲听下来，有两点深刻的感受：

Spark生态圈正在越来越深刻和广泛地影响和改造大数据应用行业。
Spark本身也正以飞快的速度发展，在功能和性能方面稳步发展。

下面就笔者比较感兴趣的两个领域，Spark应用实例和Spark自身发展，和大家分享一下自己的见闻。

Spark应用实例

腾讯广点通

来自腾讯广点通的同学介绍了Spark Streaming在广点通上的应用。该分享重点介绍了Spark Streaming的几个特性及其针对性的应用，包括excatly-once保证、可靠状态和快速batch调度三个特性。

其中exactly-once特性对于广告计费和反作弊这种对一致性要求很高的场景非常的合适，可以让使用者专心于业务，而不用操心数据是否一致。而由于可靠状态特性的存在，使得我们可以将一个业务放心地根据需要分批次（batch）做处理，而不用担心批次之间的聚合一致性问题，该特性将广点通原本实现复杂的微额记账功能大大简化了。最后介绍了一个利用Spark Streaming进程常驻特点来进行快速调度的特性，巧妙地绕过了MapReduce一级调度时无法规避的overhead和最小时间间隔限制，将调度间隔从10分钟减少到了秒级别，提高了调度的灵活性。

此外广点通的演讲还介绍了一些实战得来的Spark优化经验，包括内存限流，无编译增加特性，尽量使用SparkSQL替代RDD，以及远程调试等等。

新浪微博

来自新浪微博的同学介绍了Spark在微博feed排序中的应用，该演讲介绍了在当下火热的feed排序场景中如何使用Spark来提升效率，解决问题。微博Feed排序是一个典型的推荐+机器学习应用，其主要流程可简单分为以下几部分：

候选物料生成和召回
排序模型训练
- 训练样本、特征实时抽取收集。
- 模型训练。
排序模型预测
- 预测样本、特征实时抽取。
- 模型预测。

具体可见下图：

图片描述

可以看出，在整个流程中，很多地方都可以使用Spark来进行处理，其中Spark MLLib中的各种算法可以用来做召回和模型训练，Spark Streaming可以用来做实时的特征处理和物料生成。可以说Spark和这样一个应用框架是非常的契合，如果算上家族里的Hadoop和HDFS，几乎可以渗透到流程中的每一个环节。而这一切并非偶然，参考该次大会上的其他分享演讲，我们有理由相信，这种紧贴大数据+机器学习应用的特性风格，是Spark一个刻意努力的发展方向。

此外该演讲还介绍了Spark Streami

最低0.47元/天解锁文章

周建丁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据改变世界，Spark改变大数据——中国Spark技术峰会见闻

作者：张相於，当当网推荐系统开发经理责编：周建丁（zhoujd@csdn.net）笔者5月15日参加了“中国云计算技术大会”中的“中国Spark技术峰会”，一天12场干货满满的演讲听下来，有两点深刻的感受：Spark生态圈正在越来越深刻和广泛地影响和改造大数据应用行业。Spark本身也正以飞快的速度发展，在功能和性能方面稳步发展。下面就笔者比较感兴趣的两个领域，Spark应用...
复制链接

扫一扫