通过hadoop streaming 输入两个文件或目录

最新推荐文章于 2019-07-16 10:54:00 发布

TURING.DT

最新推荐文章于 2019-07-16 10:54:00 发布

阅读量8.3k

点赞数 4

分类专栏： HADOOP

本文链接：https://blog.csdn.net/levy_cui/article/details/77097532

版权

HADOOP 专栏收录该内容

81 篇文章 3 订阅

订阅专栏

通过Hadoop streaming写Mapreduce程序时，会遇到同时处理多个输入文件或者目录的的需求，那么如何在map程序中知道这一条内容到底来自哪个文件？
其实hadoop已经给留了解决方法：在map端获取环境变量mapreduce_map_input_file，即为本次的输入文件。

sh脚本中：

-input ${hdfs_input_path} \
-input ${hdfs_input_path_user} \

py文件中判断目录：

def mapper():
    filepath = os.environ.get('mapreduce_map_input_file')
    filename = os.path.split(filepath)[0]
    for line in sys.stdin:
        if filename == 'hdfs://hadoop/user/hdfs/merge_test':
            pass

        if filename == 'hdfs://hadoop/user/hdfs/file_test':
            pass

注意：hdfs://hadoop是集群的名字，if判断路径的时候需要写上。

py文件中判断文件名：

def mapper():
    filepath = os.environ.get('mapreduce_map_input_file')
    filename = os.path.split(filepath)[-1]
    for line in sys.stdin:
        if filename == 'file_name1':
            pass

        if filename == 'file_name2':
            pass

TURING.DT

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
通过hadoop streaming 输入两个文件或目录

通过Hadoop streaming写Mapreduce程序时，会遇到同时处理多个输入文件或者目录的的需求，那么如何在map程序中知道这一条内容到底来自哪个文件？其实hadoop已经给留了解决方法：在map端获取环境变量mapreduce_map_input_file，即为本次的输入文件。sh脚本中：-input ${hdfs_input_path} \-input ${hdfs
复制链接

扫一扫

专栏目录