Hadoop学习之MapReduce(自定义OutputFormat案例)心得

需求:过滤输入的log日志,区分特定的网站和其他的网站输出到不同的文件中(文件中每一行是一个网址)

1.LogMapper类:

                继承Mapper类之后对应相应的泛型,重写 map() 方法

                直接将文件中的网址写出(不做任何处理)

2.LogReducer类:

                继承Reducer类之后对应相应的泛型

                重写 reducer() 方法,循环将文件中的网址写出(防止有相同的数据丢失)

3.LogOutputFormat类:

                继承FileOutputFormat类之后对应相应的泛型,实现 RecordWriter() 方法

                根据返回值来创建相应的对象随后新建相应类 LogRecordWriter

                最后将job添加到创建的对象中将其与当前任务联系在一起
    
4.LogRecordWriter类:

                继承 RecordWriter 后给相应的泛型,实现其中的方法 write() 和 close()

                在类中创建两条流 (全局变量 创建流用 FileSystem客户端

                                                    并且用相应的job的Coniguration来建立关系,不能new)

                并加入输出路径(不能存在)

                在 write() 方法中具体往出写

                在 close() 方法中关闭流( IOUtils.closeStream() )

5.LogDriver类:

                获取job;设置jar包的路径(Driver类);关联mapper和reducer(自己所写的类)

                设置map输出的KV类型;设置最终输出的KV类型;

                 设置自定义的 outputformat 设置输入和输出路径(存放_SUCCESS文件)

                提交job

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

顺其自然的济帅哈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值