- 博客(4)
- 资源 (3)
- 收藏
- 关注
转载 Spark技术内幕:Shuffle的性能调优
1、了解Spark的Shuffle性能调优的参数都有那些?2、如何理解Shuffle性能调优各种参数的作用? 通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要
2015-04-08 09:01:01 317
转载 Spark技术内幕:Storage 模块整体架构
问题导读:1、如何理解Spark模块整体架构?2、理解Spark中各个类的功能作用都有什么? Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块
2015-04-08 08:58:56 872
转载 支撑过万亿音乐事件的数据系统分析
1.Moneyball for Music集群规模是怎么样的?2.在Hadoop基础设施方面面临哪些问题?3.Moneyball for Music都是用了哪些技术?当下,在线行为分析已并不罕见,但对整个音乐产业进行分析仍然不是一件容易的事情——你需要横跨Spotify、iTunes、YouTube、Facebook等众多流行平台进行相关跟踪,其中包括近5亿的音
2015-04-08 08:57:30 625
转载 千台Spark集群对千亿量级节点的相似度计算
1.相似度计算出现在什么领域中?2.对于本文提出的问题mapreduce的解决方案是什么?3.对于本文提出的问题spark的解决方案是什么?相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入
2015-04-08 08:55:45 3004
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人