Hadoop学习之MapReduce(MapJoin案例)心得

本文详细介绍了如何使用MapJoin在Hadoop MapReduce中合并两个大数据表。通过MapJoinDriver和MapJoinMapper类实现,首先在Map阶段完成表的关联,避免了传统的Reduce阶段join操作,提高了大数据处理的效率。具体步骤包括设置job、加载缓存数据、定义Mapper类以及处理输入输出数据。
摘要由CSDN通过智能技术生成

需求:

        在 Map端 将商品信息表中数据根据商品pid合并到订单数据表中

        (order表:id、pid、amount;product表:pid、pname)


1. MapJoinDriver类:

        获取job,设置jar包的路径(Driver类)

        关联mapper(自己所写的类)
                
        设置map输出的KV类型,设置最终输出的KV类型

        加载缓存数据(地址),设置reduceTask数量为0
                 
        设置输入和输出路径
                
        提交job


2. MapJoinMapper类:

        继承 Mapper 类之后对应相应的泛型

        先写 setup() 方法(初始化)

                获取缓存的文件,并把文件封装到集合 pd.txt      getCacheFiles()  FileSystem.get()

                从流中读取数据  newBufferedReader( new InputStreamReader )

                连续读取( StringUtils.isNotEmpty() 导 common 包 )切割、赋值、关流

        在写 map() 方法

                处理 order.txt  切割,获取pid,获取 订单id 和 订单数量 后封装,写出

    

    

    


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

顺其自然的济帅哈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值