MapReduce特性(四) 边数据分布

最新推荐文章于 2021-08-30 14:19:27 发布

ThisIsNobody

最新推荐文章于 2021-08-30 14:19:27 发布

阅读量278

点赞数

分类专栏： Hadoop MapReduce

本文链接：https://blog.csdn.net/weixin_42129080/article/details/80811376

版权

Hadoop 同时被 2 个专栏收录

35 篇文章 1 订阅

订阅专栏

MapReduce

18 篇文章 0 订阅

订阅专栏

边数据：作业所需的额外的只读数据，辅助处理主数据集

1 JobConf

> Configuration类的setter方法

> Context.getConfiguration()

> 如果是复杂的元数据，用户自定义序列化或者使用Stringifier类

2 分布式缓存

分布式缓存优于序列化边数据

工作机制

> 用户启动作业，Hadoop使用-files -archives -libjars等选项将指定文件复制到分布式文件系统中

> 任务运行前，NM将文件从DFS复制到本地磁盘使任务访问，此时文件本地化

> 文件以符号链接的方式指向任务工作目录

> -libjars指定的文件会在任务执行前添加到任务的classpath

> NM使用Counter统计文件使用情况

> 缓存容量过高时，LRU删除文件

> yarn-nodemanager.localizer.cache.target-size-mb设置缓存大小，默认10GB

工具GenericOptionsParser

-files 指定分发的文件，包含逗号隔开的URI列表

-archives 复制存档文件

-libjars 将JAR文件添加到classpath

hadoop jar hadoop-examples.jar\
MaxTemperatureByStationNameUsingDistributedCacheFile \
-files input/ncdc/metadata/stations-fixed-width.txt input/ncdc.all output

将本地文件statioins-fixed-width.txt复制到任务节点

分布式缓存API

Job API

addCacheXXXX()
setCacheXXXX()
addXXXXToClassPath()

ThisIsNobody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce特性(四) 边数据分布

边数据：作业所需的额外的只读数据，辅助处理主数据集1 JobConf &gt; Configuration类的setter方法 &gt; Context.getConfiguration() &gt; 如果是复杂的元数据，用户自定义序列化或者使用Stringifier类2 分布式缓存分布式缓存优于序列化边数据工作机制 &gt; 用户启动作业，Hadoop使用-files -...
复制链接

扫一扫

专栏目录