MapReduce清洗json数据——去空去重并使用指定符号分隔数据
咳咳,终于要写mapreduce了,算是填上了以前挖的坑,虽然时间有点晚。。。。。。
mapreduce去空去重并格式化输出数据
前提:解析json的库:我使用的是阿里的fastjson
思路:
数据去重:map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce,无论这个数据出现多少次,只要在最终结果中输出一次就可以了...
原创
2019-04-24 23:10:35 ·
4734 阅读 ·
14 评论