- 博客(3)
- 收藏
- 关注
原创 Spark之深入理解RDD结构
RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点:是一个分区的只读记录的集合;一个具有容错机制的特殊集;只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作RDD之所以为“弹性”的特点基于Lineage的高效容错(第n个节点出错,会从第n-1个节点恢复,血统容错)
2020-06-04 09:02:02 275
转载 Spark RDD
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。通俗点来讲,可以将 RDD 理解为一个分布式对象集合
2020-06-04 09:00:31 303
转载 从一个程序员的角度告诉你:“12306”有多牛逼?
https://juejin.im/post/5d84e21f6fb9a06ac824814912306 抢票,极限并发带来的思考虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景,相信大家都深有体会。尤其是春节期间,大家不仅使用 12306,还会考虑“智行”和其他的抢票软件,全国上下几亿人在这段时间都在抢票。“12306 服务”承受着这个世界上任何秒杀系统都无法超越的 QPS,上百...
2019-11-01 09:10:59 134
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人