MapReduce程序执行过程

最新推荐文章于 2022-07-26 00:51:59 发布

爱若手握流沙

最新推荐文章于 2022-07-26 00:51:59 发布

阅读量526

点赞数

分类专栏： MapReduce

MapReduce 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Hadoop hive spark
hive spark HBASE

input
    -》默认从HDFS中读取数据
        FileInputFormat
    -》将每一行转成keyvalue
    -》输出：
        <行偏移量，行内容>
        key     value
        0       Hadoop hive spark
        17      hive spark HBASE
mapper
    -》输入：input输出<LongWritable,Text>
    -》map：方法，一行调用一次
        针对每一个行进行分割
        输出：
        key     value
        Hadoop  1       reduce1
        hive    1       reduce2
        spark   1       reduce1
        hive    1       reduce2
        spark   1       reduce1
        HBASE   1       reduce1
shuffle：分区，分组，排序
    输出：
        key     value
        Hadoop  <1>         
        HBASE   <1>
        hive    <1,1>
        spark   <1,1>
reduce:
    reduce方法：每一条keyvalue调用一次reduce方法
        将相同key的值List<value>,进行了相加求和
    输入：
        key     value
        Hadoop  <1>
        HBASE   <1>
        hive    <1,1>
        spark   <1,1>
    输出：
        key     value
        Hadoop  1
        HBASE   1
        hive    2
        spark   2
output:
    输出：默认将reduce的输出写入到hdfs
    FileOutputFormat

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱若手握流沙

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce程序执行过程

Hadoop hive spark hive spark HBASEinput -》默认从HDFS中读取数据 FileInputFormat -》将每一行转成keyvalue -》输出： &lt;行偏移量，行内容&gt; key value 0 Hadoop hive spark ...
复制链接

扫一扫