mapreduce
安安DE爸爸
大数据从入门到精通到放弃到入土为安
展开
-
大数据——mapreduce实际应用的案例(map输出value为对象)
public class User implements Writable { private int num; private int a; private int b; private String phone; public User() { } public User(int a, int b, String phone) { this.num = a + b; this.a = a; thi原创 2019-08-08 09:57:36 · 1376 阅读 · 3 评论 -
大数据——mapreduce实际应用的案例(reduce全部聚合完成后,重新排序)
案例: Log文件: 2017/07/28 qq.com/a 2017/07/28 qq.com/bx 2017/07/28 qq.com/by 2017/07/28 qq.com/by3 2017/07/28 qq.com/news 2017/07/28 sina.com/news/socail 2017/07/28 163.com/ac 2017/07/28 sina.com/news/soc...原创 2019-08-08 10:21:55 · 1083 阅读 · 1 评论 -
大数据——mapreduce在linux系统上的yarn集群中运行
第一步:编辑mapreduce中的java代码(map逻辑和reduce逻辑) 重点是更改提交类中的main方法 /** * 如果要在hadoop集群的某台机器上启动这个job提交客户端的话 * conf里面就不需要指定 fs.defaultFS mapreduce.framework.name * * 因为在集群机器上用 hadoop jar xx.jar cn.edu360.m...原创 2019-08-08 11:10:21 · 165 阅读 · 0 评论 -
大数据——mapreduce分析数据更改源码之分组机制、分区机制、排序机制(map返回值key为对象)
map返回值对象封装: 排序规则的修改和mapreduceIO封装 public class OrderBean implements WritableComparable<OrderBean>{ private String orderId; private String userId; private String pdtName; private float price...原创 2019-08-08 11:29:18 · 172 阅读 · 0 评论 -
大数据——mapreduce打散倾斜方式解决reduce task的负载均衡
打散倾斜原理: 1、获取NumReduceTasks的个数,并将其随机 2、在map结果的返回值中,将随机数拼接到key上。 3、得出的结果再重新进行mapreduce计算,将后缀切掉,重新聚合。 第一次mapreduce: public class SkewWordcount { public static class SkewWordcountMapper extends Mapper&l...原创 2019-08-08 11:41:09 · 412 阅读 · 0 评论