- 博客(6)
- 收藏
- 关注
原创 一篇文章看懂事务的一致性
一、前言 事务一直以来是一个玄之又玄的东西,非常难以理解。难以理解倒不是因为事务本身有多难,而是事务这个概念被各种刻意包装,以至于让人晕头转向,摸不着头脑。例如各种抽象的概念,一致性、持久性、原子性、持久性、读未提交、读已提交、可重复读、序列化,Spring也抽象了事务的传播属性,数...
2019-03-25 19:40:00 1590
原创 剖析Hadoop和Spark的Shuffle过程差异(二)
上一篇博客《剖析Hadoop和Spark的Shuffle过程差异(一)》剖析了Hadoop MapReduce的Shuffle过程,那么本篇博客,来聊一聊Spark shuffle。 Spark shuffle相对来说更简单,因为不要求全局有序,所以没有那么多排序合并的操作。...
2019-03-12 23:22:00 357
原创 Spark RDD操作之Map系算子
本篇博客将介绍Spark RDD的Map系算子的基本用法。 1、map map将RDD的元素一个个传入call方法,经过call方法的计算之后,逐个返回,生成新的RDD,计算之后,记录数不会缩减。示例代码,将每个数字加10之后再打印出来,代码如下 import ...
2019-03-07 20:12:00 1024
原创 分布式定时任务框架Elastic-Job的使用
一、前言 Elastic-Job是一个优秀的分布式作业调度框架。 Elastic-Job是一个分布式调度解决方案,由两个相互独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成。 Elastic-Job-Lite定位为轻量级无中心化...
2019-03-06 20:37:00 693
原创 剖析Hadoop和Spark的Shuffle过程差异(一)
一、前言 对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全量数据,那就必须把相同key的数据汇集到同一个Reduce...
2019-03-05 23:33:00 257
原创 Spark RDD操作之ReduceByKey
一、reduceByKey作用 reduceByKey将RDD中所有K,V对中,K值相同的V进行合并,而这个合并,仅仅根据用户传入的函数来进行,下面是wordcount的例子。 import java.util.Arrays;import java.util.List;...
2019-03-04 19:49:00 1936
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人