whisky丶-CSDN博客

原创多表关联

多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息1 实例描述输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出”工厂名——地址名”表地址表 addressID addressname 1 　　　　Beijing 2

2017-08-16 23:25:15 2187

转载找出三个最大值demo

利用hadoop查询数据中三个最大值package mr;import java.net.URI;import java.util.Arrays;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apac

2017-08-16 08:50:23 275

转载升序排列demo

数据文件中，如果按照第一列升序排列，当第一列相同时，第二列升序排列如果当第一列相同时，求出第二列的最小值自定义类型MyNewKey实现了WritableComparable的接口，该接口中有一个compareTo()方法，当对key进行比较时会调用该方法，而我们将其改为了我们自己定义的比较规则，从而实现我们想要的效果private static class MyNewKey implem

2017-08-15 23:45:11 368

转载 mapreduce中的partitioner，combiner，shuffle

mapreduce中的partitioner，combiner，shuffle为什么进行map规约网络带宽严重被占降低程序效率单一节点承载过重降低程序性能 combiner 在MapReduce编程模型中，在Mapper和Reducer之间有一个非常重要的组件，它解决了上述的性能瓶颈问题，它就是Combiner。每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先

2017-08-15 23:40:41 334

了解inputSplitHadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称为“分片”。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条数据。getSplits()负责将文件切分成多个分片(InputSplit)，但InputSplit并没有实际切分文件，而只是说明了如何切分数据，也就是说，I

2017-08-15 23:27:16 7705 1

转载 Mapreduce框架的相关问题

jobtracker的单点故障：jobtracker和hdfs的namenode一样也存在单点故障，单点故障一直是hadoop被人诟病的大问题，为什么hadoop的做的文件系统和mapreduce计算框架都是高容错的，但是最重要的管理节点的故障机制却如此不好，我认为主要是namenode和jobtracker在实际运行中都是在内存操作，而做到内存的容错就比较复杂了，只有当内存数

2017-08-14 23:09:43 246

转载 Mapreduce作业的处理流程

按照时间顺序包括：输入分片（input split）、map阶段、combiner阶段、shuffle阶段和reduce阶段输入分片（input split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务输入分片（input split）存储的并非数据本

2017-08-14 23:07:59 1786

转载 Mapreduce工作原理

作业执行涉及4个独立的实体客户端，用来提交MapReduce作业JobTracker，用来协调作业的运行TaskTracker，用来处理作业划分后的任务HDFS，用来在其它实体间共享作业文件首先是客户端要编写好mapreduce程序，配置好mapreduce的作业也就是job，接下来就是提交job了，提交job是提交到JobTracker上的，这个时

2017-08-14 23:05:39 338

转载 Mapreduce是什么

简单来说，MapReduce是一个编程模型，用以进行大数据量的计算。Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。Mapreduce的特点：软件框架并行处理可靠且容错大规模集群

2017-08-14 23:02:46 631

转载大数据笔记1

1.什么是大数据，4V？数据量大（Volume）。第一个特征是数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。类型繁多（Variety）。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求

2017-08-10 10:47:33 429

whisky丶的博客