hadoop
张伟灿
您还可以输入300个字符
展开
-
Hadoop YARN中内存和CPU两种资源的调度和隔离
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceM转载 2015-03-30 19:29:51 · 502 阅读 · 0 评论 -
跳跃的舞者,舞蹈链(Dancing Links)算法——求解精确覆盖问题
精确覆盖问题的定义:给定一个由0-1组成的矩阵,是否能找到一个行的集合,使得集合中每一列都恰好包含一个1例如:如下的矩阵就包含了这样一个集合(第1、4、5行) 如何利用给定的矩阵求出相应的行的集合呢?我们采用回溯法 矩阵1: 先假定选择第1行,如下所示:如上图中所示,红色的那行是选中的一行,这一行中有3个1,分转载 2015-08-20 11:00:52 · 495 阅读 · 0 评论 -
hadoop实现join (CompositeInputFormat)
hadoop实现join连接原创 2015-08-17 17:07:34 · 2344 阅读 · 2 评论 -
MapReduce应用中CombineFileInputFormat原理与用法
HDFS本身被设计来存储大文件,但是有时难免会有小文件出现,有时很可能时大量的小文件。通过MapReduce处理大量小文件时会遇到些问题。MapReduce程序会将输入的文件进行分片(Split),每个分片对应一个map任务,而默认一个文件至少有一个分片,一个分片也只属于一个文件。这样大量的小文件会导致大量的map任务,导致资源过度消耗,且效率低下。Hadoop自身包含了CombineFi转载 2015-08-17 11:47:42 · 3679 阅读 · 0 评论 -
Hadoop MapReduce处理海量小文件:基于CombineFileInputFormat
在使用Hadoop处理海量小文件的应用场景中,如果你选择使用CombineFileInputFormat,而且你是第一次使用,可能你会感到有点迷惑。虽然,从这个处理方案的思想上很容易理解,但是可能会遇到这样那样的问题。使用CombineFileInputFormat作为Map任务的输入规格描述,首先需要实现一个自定义的RecordReader。CombineFileInputFormat的转载 2015-08-17 11:16:24 · 1088 阅读 · 0 评论 -
对互联网海量数据实时计算的理解
对互联网海量数据实时计算的理解实时计算的概念 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:1) 数据源是实时的不间断的,要求对用户的响应时间也是实时的。主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处转载 2015-07-22 16:13:19 · 686 阅读 · 0 评论 -
hadoop SequenceFile介绍 大数据 存储
SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件。基于压缩类型CompressType,共有三种SequenceFile Writer:12345678public static enum CompressionType {转载 2015-08-14 16:32:57 · 512 阅读 · 0 评论 -
Hadoop SequcenceFile 处理多个小文件
利用sequenceFile打包多个小文件,MapFile是sequenceFile的排序形式,程序如下: Java代码 public class testSequenceFile { public static void main(String[] args) throws IOException{ Configu转载 2015-08-13 17:56:46 · 522 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort
关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se转载 2015-08-11 17:08:45 · 474 阅读 · 0 评论 -
windows下运行hadoop的Eclipse插件,的常见错误和解答
问题一.An internal error occurred during: "Map/Reducelocation status updater".java.lang.NullPointerException 我们hadoop-eclipse-plugin-2.6.0.jar放到Eclipse的plugins目录下,我们的Eclipse目录是 F:\tool\eclipse-jee-ju转载 2015-03-31 14:12:11 · 1988 阅读 · 0 评论 -
Wrong FS: hdfs://localhost:9000/user/... expected: file:///
错误信息:Wrong FS: hdfs://localhost:9000/user/... expected: file:///问题描述:在本地运行hadoop Map/Reduce程序时,在涉及到hdfs文件操作的时候,往往会出现上面提到的错误,例如,下面这段代码:1 Path clear_path = new Path(args[1]);2 FileSys转载 2015-03-31 17:19:32 · 4805 阅读 · 0 评论 -
Job hanging problems in pseudo-distributed YARN clusters
Often a user of YARN (with MR2) in CDH5 reports that their job just submits and hangs infinitely, with a pattern observable on the submission log such as below:?123456转载 2015-03-30 19:28:10 · 794 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目转载 2015-11-16 15:26:41 · 609 阅读 · 0 评论