Hadoop缓存机制

最新推荐文章于 2022-04-18 17:13:31 发布

宁泊与青阳

最新推荐文章于 2022-04-18 17:13:31 发布

阅读量195

点赞数

文章标签： hadoop 缓存 big data

本文链接：https://blog.csdn.net/shmily________/article/details/120129304

版权

本文探讨了在大数据处理中，如何利用分布式缓存优化join操作。特别是当面对一个大表和一个小表的join时，通过广播小表到各个计算节点，可以显著提升map端join的效率，减少了传统reduce端join的开销。DistributedCache在此过程中起到关键作用，它负责将缓存文件复制到Slave节点，并确保文件只在Job开始前拷贝一次，从而提高了整体的处理速度。

摘要由CSDN通过智能技术生成

1、分布式缓存一个最重要的应用就是在进行join操作的时候，如果一个表很大，另一个表很小，我们就可以将这个小表进行广播处理，即每个计算节点上都存一份，然后进行map端的连接操作，经过我的实验验证，这种情况下处理效率大大高于一般的reduce端join，广播处理就运用到了分布式缓存的技术。
2、DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前，文件在每个Job中只会被拷贝一次，缓存的归档文件会被在Slave节点中解压缩。将本地文件复制到HDFS中去，接着Client会通过addCacheFile() 和addCacheArchive()方法告诉DistributedCache在HDFS中的位置。当文件存放到文地时，JobClient同样获得DistributedCache来创建符号链接，其形式为文件的URI加fragment标识。当用户需要获得缓存中所有有效文件的列表时，JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一个指向本地文件路径对象数组。

宁泊与青阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop缓存机制

1、分布式缓存一个最重要的应用就是在进行join操作的时候，如果一个表很大，另一个表很小，我们就可以将这个小表进行广播处理，即每个计算节点上都存一份，然后进行map端的连接操作，经过我的实验验证，这种情况下处理效率大大高于一般的reduce端join，广播处理就运用到了分布式缓存的技术。2、DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前，文件在每个Job中只会被拷贝一次，缓存的归档文件会被在Slave节点中解压缩。将本地文件复制到HDFS中去，接着Client
复制链接

扫一扫