MapReduce
MapReduce
这个妹妹我见过
小菜鸡养成记
展开
-
【大数据开发】MapReduce——统计每年的最高温度(自定义分区器)、统计每年入职的人数
第一题:简述MapReduce的核心思想(重点理解)一句话:移动计算而非移动数据,分而治之。原因:因为移动数据,会占用大量的网络带宽,而网络带宽本来就很稀缺,传输时间与分析时间的比例大大提高了, 效率非常低。 反过来,因为计算程序的字节数量不是很大(100M足够大了),所以将计算程序移动到有数据的机器节点上,利用他们的cpu进行运算,一是比移动数据要大大节省了网络带宽和时间,二是可以并发运算,效率翻倍。这样,整个作业的时间只取决于分析时间。 MapReduce的一个完整程序包含两个部分,原创 2020-10-08 15:14:12 · 2862 阅读 · 0 评论 -
《Hadoop技术内幕:深入理解MapReduce架构设计与实现原理》学习笔记
《Hadoop技术内幕:深入理解MapReduce架构设计与实现原理》50075 是 TaskTracker 的 HTTP 端 口 号第二章重点第三章重点InputFormat 主要用于描述输入数据的格式OutputFormat 主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入 特定格式的文件中。第五章重点第六章重点第七章重点第八章重点.原创 2020-08-22 17:57:18 · 162 阅读 · 0 评论 -
【大数据开发】MapReduce——MapReduce概念、Job提交流程、MapReduce的运行流程、MapReduce统计单词个数day38
一、MapReduce的概念MapReduce概念:是分布式并行离线计算框架,是分布式运算程序的编程模型,是用户基于hadoop的数据分析应用的核心框架核心功能:是将用户编写的自定义业务逻辑和框架自带的各组件整合成一个完整的分布式运算程序,并发运行在hadoop集群之上MapReduce与HDFS的解决问题的原理是相似的,HDFS将大的文件分成若干个小的文件,然后将他们分别存储在集群中的各节点中。同样的原理,MapReduce是将一个复杂的运算切分成若干个子运算,然后将他们分别提交给集群中各节点,由各原创 2020-08-20 07:52:06 · 308 阅读 · 0 评论 -
【大数据开发】MapReduce——MapReduce模板、求平均分、多文件输出、分区排序、求共同好友、单表连接、分组topN
MapReduce模板import com.qfedu.bigdata.HdfsUtils.hdfsUtil;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;impo原创 2020-10-07 14:42:16 · 311 阅读 · 0 评论