mapreduce
文章平均质量分 76
如初⁰
以梦为马
展开
-
MapReduce开发总结
博主近几天把mapreduce和yarn的相关知识都学完了,感觉不是太难,基本上可以理解掌握。我想把mapreduce的一些开发流程和经验分享给大家,有些概念性的知识在以后面试中也能用到。下面我就这几个方面来总结。 mapreduce在编程的时候,基本上一个固化的模式,没有太多可灵活改变的地方,除了以下几处: 1)输入数据接口:InputFormat--->FileInputFormat...原创 2019-01-28 23:12:11 · 428 阅读 · 0 评论 -
partition分区
1)默认partition分区 public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key, V value, int numReduc...原创 2019-01-25 21:53:17 · 830 阅读 · 0 评论 -
MapReduce程序运行流程分析总结
1)在MapReduce程序读取文件的输入目录上存放相应的文件。 2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一个任务分配规划。 3)客户端提交job.split、jar包、job.xml等文件给yarn,yarn中的resourcemanager启动MRAppMaster。 4)MRAppMaster启动后根据本次job的描述信息,计算...原创 2019-01-24 22:23:53 · 516 阅读 · 0 评论 -
MapReduce——流量汇总程序案例(统计每一个手机号耗费的总上行流量、下行流量、总流量)
一、准备 (1)windows可以连接hadoop集群 (2)配置hadoop和jdk的环境变量 (3)一份要处理的数据xxx.txt 二、分析 基本思路: Map阶段: (1)读取一行数据,切分字段 (2)抽取手机号、上行流量、下行流量 (3)以手机号为key,bean对象为value输出,即context.write(手机号,bean); Reduce阶段: (1)累加上...原创 2019-01-23 21:28:48 · 2845 阅读 · 1 评论 -
MapReduce——WordCount案例(统计单词个数)
一、MapReduce概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 二、MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段 2)第一个阶段的maptask并...原创 2019-01-22 16:49:39 · 4685 阅读 · 0 评论