hive join、spark join 、flink join

最新推荐文章于 2024-03-27 22:23:32 发布

罗少说

最新推荐文章于 2024-03-27 22:23:32 发布

阅读量455

点赞数

本文链接：https://blog.csdn.net/luo981695830/article/details/105628015

版权

hive 同时被 3 个专栏收录

40 篇文章 21 订阅

订阅专栏

flink

15 篇文章 1 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

hive里面map join优化
小表数据-> HashtableFiles-> Distributed Cache->遍历匹配

离线Batch SQL Join三种方式
Nested-loop Join 内嵌遍历的方式
Sort-Merge Join 归并排序要求是有序数据集
Hash Join 将一个数据集转换为Hash Table，再进行遍历匹配

实时Streaming SQL Join
Nested-loop Join 和 Hash Join 经过一定的改良则可以满足实时 SQL 的要求。

存在的问题是随着时间的增长，内存占用过多，单个元素的匹配效率低

需要可以设置一个缓存剔除策略，将不必要的历史数据及时清理，即解决内存占用过多的问题

Flink SQL的Join
Regular Join
可以对表所有历史记录以及未来的记录进行匹配，没有缓存剔除策略，因为资源问题，一般只用做有界数据流的Join

Time-Windowed Join
利用窗口给Join设定一个时间界限，超出时间范围的数据不可见并清理掉，时间可以是系统时间也可以是事件时间

两个输入需要缓存时间下界以上的数据，
可以看作是合理范围内的缓存剔除策略，本身flink处理数据的场景大部分是依赖于事件时间和水位

Temporal Table Join
作为时间窗口Join的补充，解决了维表join的业务场景

spark中的cache/persist/checkpoint
cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是persist方法，缓存策略均为MEMORY_ONLY。

cached RDD 怎么被读取

下次计算（一般是同一 application 的下一个 job 计算）时如果用到 cached RDD，task 会直接去 blockManager 的 memoryStore 中读取。具体地讲，当要计算某个 rdd 中的 partition 时候（通过调用 rdd.iterator()）会先去 blockManager 里面查找是否已经被 cache 了，如果 partition 被 cache 在本地，就直接使用 blockManager.getLocal() 去本地 memoryStore 里读取。如果该 partition 被其他节点上 blockManager cache 了，会通过 blockManager.getRemote() 去其他节点上读取。

cache与persist的唯一区别在于： cache只有一个默认的缓存级别MEMORY_ONLY ，而persist可以根据StorageLevel设置其它的缓存级别。这里注意一点cache或者persist并不是action

cache 和 checkpoint 的显著区别是：cache把 RDD 计算出来然后放在内存中，但是RDD 的依赖链也不能丢掉，当某个点某个 executor 宕了，上面cache 的RDD就会丢掉，需要通过依赖链重新计算出来；而 checkpoint 是把 RDD 保存在 HDFS中，是多副本可靠存储，所以依赖链就可以丢掉了，就斩断了依赖链，因为checkpoint是需要把 job 重新从头算一遍，最好先cache一下， checkpoint就可以直接保存缓存中的 RDD 了，就不需要重头计算一遍了，对性能有极大的提升。

cache 机制是每计算出一个要 cache 的 partition 就直接将其 cache 到内存了。但 checkpoint 没有使用这种第一次计算得到就存储的方法，而是等到 job 结束后另外启动专门的 job 去完成 checkpoint 。也就是说需要 checkpoint 的 RDD 会被计算两次。因此，在使用 rdd.checkpoint() 的时候，建议加上 rdd.cache()，这样第二次运行的 job 就不用再去计算该 rdd 了，直接读取 cache 写磁盘。

persist与checkpoint
rdd.persist(StorageLevel.DISK_ONLY) 与 checkpoint 区别的是：前者虽然可以将 RDD 的 partition 持久化到磁盘，但该 partition 由 blockManager 管理。一旦 driver program 执行结束，也就是 executor 所在进程 CoarseGrainedExecutorBackend stop，blockManager 也会 stop，被 cache 到磁盘上的 RDD 也会被清空（整个 blockManager 使用的 local 文件夹被删除）。而 checkpoint 将 RDD 持久化到 HDFS 或本地文件夹，如果不被手动 remove 掉（话说怎么 remove checkpoint 过的 RDD？），是一直存在的，也就是说可以被下一个 driver program 使用，而 cached RDD 不能被其他 dirver program 使用。

Spark相比Hadoop的优势在于尽量不去持久化，所以使用 pipeline，cache 等机制。用户如果感觉 job 可能会出错可以手动去 checkpoint 一些 critical 的 RDD，job 如果出错，下次运行时直接从 checkpoint 中读取数据。唯一不足的是，checkpoint 需要两次运行 job。