MapReduce
隔壁的橘猫
这个作者很懒,什么都没留下…
展开
-
da数据HIve写入映射流程
数据入库命令【命令】2.1create database video;create table video_ori(videoId string,uploader string,age string,category string,length string,views string,rate string,ratings string,comments string,r...原创 2020-01-06 20:33:12 · 438 阅读 · 0 评论 -
启动类
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWrita...原创 2020-01-06 10:32:30 · 579 阅读 · 0 评论 -
数据预处理
public class T3Mapper extends Mapper<LongWritable, Text,Text, NullWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException...原创 2020-01-06 10:33:38 · 397 阅读 · 0 评论 -
MapReduce面试题
MapReduce核心思想分而治之,先分后合分是Map 和是reduce偏移量指的是每行行首字母移动到文本的最前面需要的距离Suffle包含哪些步骤宏观层面:1.分区2.排序3.Combiner(局部聚合)4.分组MR从读取数据开始到将最终结果写入HDFS经过哪些步骤 第一步:InputFormat InputFormat 在HDFS文件系统中读取要进行计算的数据 输...原创 2019-11-15 20:42:55 · 1012 阅读 · 0 评论 -
MapReduce执行流程
MapReduce执行流程第一步InputFormatInputForMat 在HDFS文件系统中读取要计算的数据输出给split第二步splitsplit将数据进行逻辑切分,切分成多个任务输出给RR(RecordReader)第三步RR(RecordReader)RR将切分后的数据转换成key value进行输出key : 每一行行首字母的偏移量value: 每一行数据输...原创 2019-11-15 20:35:08 · 438 阅读 · 0 评论 -
理解MapReduce思想
理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖...原创 2019-11-11 20:16:42 · 773 阅读 · 0 评论