2019年03月_dong_lxkm

一、前言事务一直以来是一个玄之又玄的东西，非常难以理解。难以理解倒不是因为事务本身有多难，而是事务这个概念被各种刻意包装，以至于让人晕头转向，摸不着头脑。例如各种抽象的概念，一致性、持久性、原子性、持久性、读未提交、读已提交、可重复读、序列化，Spring也抽象了事务的传播属性，数...

2019-03-25 19:40:00 1590

上一篇博客《剖析Hadoop和Spark的Shuffle过程差异（一）》剖析了Hadoop MapReduce的Shuffle过程，那么本篇博客，来聊一聊Spark shuffle。 Spark shuffle相对来说更简单，因为不要求全局有序，所以没有那么多排序合并的操作。...

2019-03-12 23:22:00 357

本篇博客将介绍Spark RDD的Map系算子的基本用法。 1、map map将RDD的元素一个个传入call方法，经过call方法的计算之后，逐个返回，生成新的RDD，计算之后，记录数不会缩减。示例代码，将每个数字加10之后再打印出来，代码如下 import ...

2019-03-07 20:12:00 1024

一、前言 Elastic-Job是一个优秀的分布式作业调度框架。 Elastic-Job是一个分布式调度解决方案，由两个相互独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成。 Elastic-Job-Lite定位为轻量级无中心化...

2019-03-06 20:37:00 693

一、前言对于基于MapReduce编程范式的分布式计算来说，本质上而言，就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想，让每个节点只计算部分数据，也就是只处理一个分片，那么要想求得某个key对应的全量数据，那就必须把相同key的数据汇集到同一个Reduce...

2019-03-05 23:33:00 257

一、reduceByKey作用 reduceByKey将RDD中所有K,V对中，K值相同的V进行合并，而这个合并，仅仅根据用户传入的函数来进行，下面是wordcount的例子。 import java.util.Arrays;import java.util.List;...

2019-03-04 19:49:00 1936

dong_lxkm的博客