MapReduce
爱吃龙虾的饼
这个作者很懒,什么都没留下…
展开
-
Hadoop-mapreduce案例-GroupingComparator应用-查询订单最大金额
订单数据如下(订单id, 商品id, 成交金额):Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt_01,222.8Order_...转载 2019-04-15 17:00:16 · 353 阅读 · 0 评论 -
Hadoop-MapReduce-运营商原始日志增强(自定义OutputFormat)
1.需求:现有一些原始日志需要做增强解析处理,流程:1、从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g)2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志3、如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录2.需求分析:程序...转载 2019-04-15 18:22:31 · 145 阅读 · 0 评论 -
Hadoop-MapReduce案例-自定义分区
在Hadoop的MapReduce过程中,每个map task处理完数据后,如果存在自定义Combiner类,会先进行一次本地的reduce操作,然后把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:public class HashPartitioner<K, V&...转载 2019-04-12 16:44:40 · 342 阅读 · 0 评论 -
Hadoop-mapreduce案例-map端join
订单数据orders.txt1001 pd001 3001002 pd002 201003 pd003 401004 pd002 50商品数据pdts.txtpd001 applepd002 xiaomipd003 cuizi倾斜问题:在电商平台中,买小米手机和买苹果手机的订单数量很多,买锤子手机的订单...转载 2019-04-12 15:58:11 · 279 阅读 · 0 评论 -
Hadoop-mapreduce案例-两表join
订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3...转载 2019-04-12 15:39:37 · 256 阅读 · 0 评论 -
Hadoop-mapreduce案例-统计手机上行流量,下行流量,总流量
日志格式如下图,需要的字段,第二列:手机号(用户),倒数第三列:上行流量,倒数第二列:下行流行思路:将上行流量,下行流量,总流量封装成一个对象bean,map中context.write(手机号,bean),reduce中对每个用户的流量进行统计。MapReduce中传输自定义数据类型Bean:(1) 要在Hadoop的各个节点之间传输,就必须实现其序列化机制,实现 Writa...转载 2019-04-12 15:23:23 · 2932 阅读 · 0 评论 -
Hadoop-MapReduce案例-求共同好友
原始文件如下:(冒号前是人名,冒号后是好友的名字)A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J要求:求出哪些人两两之间有共...转载 2019-04-12 14:53:27 · 378 阅读 · 0 评论 -
Hadoop-MapReduce原理过程
MapReduce的定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集mapreduce的优点1、MapReduce 易于编程 。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,...转载 2019-04-10 16:59:07 · 265 阅读 · 0 评论