自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1026)
  • 资源 (7)
  • 收藏
  • 关注

转载 如何编写YARN应用程序

1.     概述YARN是一个资源管理系统,负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上,通常需要编写两个组件:客户端和ApplicationMaster。由于这两个组件编写非常复杂,尤其ApplicationMaster,需要考虑RPC调用、任务容错等细节,所以,往往由专业的开发人员编写这两个组件,并提供给上层的应用程序用户使用。如果大量应用程序可抽象成一种通用框

2013-10-23 14:50:41 730

如何编写YARN应用程序

1. 概述YARN是一个资源管理系统,负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上,通常需要编写两个组件:客户端和ApplicationMaster。由于这两个组件编写非常复杂,尤其ApplicationMaster,需要考虑RPC调用、任务容错等细节,所以,往往由专业的开发人员编写这两个组件,并提供给上层的应用程序用户使用。如果大量应用程序可抽象成一种通用框架,那么...

2013-10-23 14:50:00 211

转载 Hadoop版本选择探讨

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1  Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hado

2013-10-23 14:48:11 649

Hadoop版本选择探讨

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1.Apache Hadoop1.1Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop ...

2013-10-23 14:48:00 448

转载 YARNMRv2 Node Manager深入剖析—NodeManager启动Container流程分析

1. 介绍NodeManager的一个最重要的功能是根据ApplicationMaster的要求启动container,由于各个节点上的container由ResourceManager进行统一管理和分配的,通常,ResourceManager将Container分配给ApplicationMaster,ApplicationMaster再进一步要求对应的NodeManager启动contai

2013-10-23 14:46:17 712

转载 YARN/MRv2 Node Manager深入剖析—整体架构

NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)。【NodeStatusUpdater】当NM启动时,该

2013-10-23 14:45:01 686

YARN/MRv2 Node Manager深入剖析—整体架构

NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)。【NodeStatusUpdater】当NM启动时,该...

2013-10-23 14:45:00 168

转载 统一资源管理与调度平台(系统)介绍

1. 背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然语言

2013-10-23 14:42:51 1099

统一资源管理与调度平台(系统)介绍

1.背景随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,从支持离线处理的MapReduce,到支持在线处理的Storm,从迭代式计算框架Spark到流式处理框架S4,…,各种框架诞生于不同的公司或者实验室,它们各有所长,各自解决了某一类应用问题。而在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方案如下:网页建索引采用MapReduce框架,自然语言处...

2013-10-23 14:42:00 334

转载 YARN/MRv2 ResourceManager代码分析

本文分析了Hadoop-0.23.0中一个Application从提交到运行结束的整个过程。期间涉及到Client,ResourceManage,NodeManager等组件以及RMClientProtocol,AMRMProtocol,ContainerManager等通信协议。【注】 本文的两个主要图片可能不够清晰,可以从这里下载。(上图参考了《Hadoop 0.23 MRv2

2013-10-23 14:39:41 1223

YARN/MRv2 ResourceManager代码分析

本文分析了Hadoop-0.23.0中一个Application从提交到运行结束的整个过程。期间涉及到Client,ResourceManage,NodeManager等组件以及RMClientProtocol,AMRMProtocol,ContainerManager等通信协议。【注】 本文的两个主要图片可能不够清晰,可以从这里下载。(上图参考了《Hadoop 0.23 MRv2...

2013-10-23 14:39:00 125

原创 YARN/MRv2 ResourceManager代码结构分析

ResourceManager相当于整个系统的master,主要功能是启动application的ApplicationMaster和分配系统资源。 ResourceManager的核心代码在java包 org.apache.hadoop.yarn.server.resourcemanager中的ResourceManager类中,主要涉及到三种 对象:事件处理器,RPC服务和普通服务,...

2013-10-23 14:32:22 141

原创 YARN/MRv2的Client端代码分析

1.  写在前面正如前几篇文章所述,YARN/MRv2是一个资源统一管理系统,它上面可以运行各种计算框架,而所有计算框架的client端编写方法类似,本文拟以MapReduce计算框架的client端代码为例进行说明。2.  两个相关协议需要通过两个协议提交作业:ClientProtocol:Hadoop中的JobClient通过该协议向JobTracker提交作业Clien...

2013-10-23 14:30:38 154

原创 YARN/MR2编程模型介绍

Hadoop 0.23.0是一个通用的资源分配框架,它不仅支持MapReduce计算框架,同时也支持流式计算框架,迭代计算框架,MPI等。它实现时采用基于了事件驱动机制,异步编程模型,如下图所示: 该图片来自《Hadoop 0.23 MRv2分析》EventHandler被称作事件处理器, 每种事件类型对应一种EventHandler,其对事件的处理过程通过状态机来描述,handle...

2013-10-23 14:24:10 355

原创 下一代Apache Hadoop MapReduce框架的架构

背景 随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Reliability)...

2013-10-23 14:21:58 137

原创 YARN/MRv2 中基本术语介绍

YARN/MRv2是下一代MapReduce框架(见Hadoop-0.23.0),该框架完全不同于当前的MapReduce框架,它在扩展性,容错性和通用性等方面更出色,据统计,Yarn有超过150000行代码,完全是重写编写的。本文介绍了YARN/MRv2中基本术语的含义,帮助有兴趣的程序员们对YARN有一个初步的理解。 (1) YARN下一代MapReduce框架的名称,为了容易记...

2013-10-23 14:19:12 211

原创 使用Java调用谷歌搜索

转自:http://yangshangchuan.iteye.com/blog/1961059 search-demo托管于github search-demo演示了如何利用Java来调用百度搜索和谷歌搜索,更多细节请到github上查看search-demo 自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索和谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很...

2013-10-19 12:50:03 254

原创 elasticsearch query dsl queries

elasticsearch provides a full Java query dsl in a similar manner to the REST Query DSL. The factory for query builders is QueryBuilders. Once your query is ready, you can use the Search API.See als...

2013-10-16 17:45:00 165

原创 走出类加载器迷宫

这是前几天在看类加载器机制时搜到的一篇旧文,网上搜了搜相应的中文资料,感觉很多意思没有翻译出来,这两天我试着自己翻译了一下,供同道参考。英文文章地址:Find a way out of the ClassLoader maze  走出类加载器迷宫(本人翻译,转载请注明出处) 系统类加载器, 当前类加载器, 上下文类加载器? 你应该用哪一个?By Vladimir R...

2013-10-16 14:22:04 112

原创 shell中调用另外的脚本文件的两种方法

脚本 first (测试示例1) 代码:#!/bin/bashecho 'your are in first file'问) 在当前脚本文件中调用另外一个脚本文件?方法一: 使用source 脚本 second (测试示例2)代码:#!/bin/bashecho 'your are in second file'source first方法二: 使用.脚本 second (测试...

2013-10-16 14:19:53 99

原创 互联网视频

淘宝广告定向介绍:http://v.csdn.hudong.com/open/view/detail/97-SDCC2012-taobao-UIT携程zookeeper使用场景介绍:http://v.csdn.hudong.com/open/view/detail/83-SDCC2012-ctrip-ZooKeeper

2013-07-18 22:58:03 604

互联网视频

淘宝广告定向介绍:http://v.csdn.hudong.com/open/view/detail/97-SDCC2012-taobao-UIT携程zookeeper使用场景介绍:http://v.csdn.hudong.com/open/view/detail/83-SDCC2012-ctrip-ZooKeeperHBase系统故障恢复的优化实践分享:http://v.csdn.h...

2013-07-18 22:58:00 89

转载 Yahoo!开源运行在Hadoop上的Storm——Storm-YARN

Apache Hadoop是大数据处理与批处理的事实标准,而Twitter Storm则很快地成为实现大规模事件处理的一种标准。遗憾的是,直到最近,实现Storm和Hadoop所需要的集群在物理上仍然有所不同。上周,Yahoo!宣布开放运行在Hadoop集群上的Storm——即Storm-YARN的源代码。据Yahoo!介绍,相对于隔离的集群,实时处理(Storm)和批处理的结合具有很

2013-06-22 15:15:25 816

Yahoo!开源运行在Hadoop上的Storm——Storm-YARN

Apache Hadoop是大数据处理与批处理的事实标准,而Twitter Storm则很快地成为实现大规模事件处理的一种标准。遗憾的是,直到最近,实现Storm和Hadoop所需要的集群在物理上仍然有所不同。上周,Yahoo!宣布开放运行在Hadoop集群上的Storm——即Storm-YARN的源代码。据Yahoo!介绍,相对于隔离的集群,实时处理(Storm)和批处理的结合具...

2013-06-22 15:15:00 257

Yahoo!开源运行在Hadoop上的Storm——Storm-YARN

Apache Hadoop是大数据处理与批处理的事实标准,而Twitter Storm则很快地成为实现大规模事件处理的一种标准。遗憾的是,直到最近,实现Storm和Hadoop所需要的集群在物理上仍然有所不同。上周,Yahoo!宣布开放运行在Hadoop集群上的Storm——即Storm-YARN的源代码。据Yahoo!介绍,相对于隔离的集群,实时处理(Storm)和批处理的结合具...

2013-06-22 15:15:00 90

转载 一致性哈希算法与Java实现

一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了,如果是持久化存储则要做数据迁移,如果是分布式缓存,则其他缓存就失效了。    因此,引入了一致性哈希算法: 把数据用h

2013-06-18 17:21:18 778 1

一致性哈希算法与Java实现

一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了,如果是持久化存储则要做数据迁移,如果是分布式缓存,则其他缓存就失效了。 因此,引入了一致性哈希算法:把数据用has...

2013-06-18 17:21:00 94

一致性哈希算法与Java实现

一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了,如果是持久化存储则要做数据迁移,如果是分布式缓存,则其他缓存就失效了。 因此,引入了一致性哈希算法:把数据用has...

2013-06-18 17:21:00 68

转载 一致性hash算法 - consistent hashing

consistent hashing算法早在1997年就在论文Consistenthashing and random trees中被提出,目前在cache系统中应用越来越广泛;1基本场景比如你有N个cache服务器(后面简称cache),那么如何将一个对象object映射到N个cache上呢,你很可能会采用类似下面的通用方法计算object的hash值,然后均匀的映射到到N个cache;

2013-06-18 17:01:09 456

一致性hash算法 - consistent hashing

consistent hashing算法早在1997年就在论文Consistenthashing and random trees中被提出,目前在cache系统中应用越来越广泛;1基本场景比如你有N个cache服务器(后面简称cache),那么如何将一个对象object映射到N个cache上呢,你很可能会采用类似下面的通用方法计算object的hash值,然后均匀的映射到到N个cac...

2013-06-18 17:01:00 64

一致性hash算法 - consistent hashing

consistent hashing算法早在1997年就在论文Consistenthashing and random trees中被提出,目前在cache系统中应用越来越广泛;1基本场景比如你有N个cache服务器(后面简称cache),那么如何将一个对象object映射到N个cache上呢,你很可能会采用类似下面的通用方法计算object的hash值,然后均匀的映射到到N个cac...

2013-06-18 17:01:00 68

转载 hadoop mapred-queue-acls 配置

hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):property>   name>mapred.queue.namesname>   v

2013-06-18 14:03:09 1132

hadoop mapred-queue-acls 配置

hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):<property><name>mapred.queue.nam...

2013-06-18 14:03:00 118

hadoop mapred-queue-acls 配置

hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):<property><name>mapred.queue.nam...

2013-06-18 14:03:00 113

转载 hadoop权限管理

1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,ki

2013-06-18 14:00:41 623

hadoop权限管理

1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,ki...

2013-06-18 14:00:00 88

hadoop权限管理

1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,ki...

2013-06-18 14:00:00 98

原创 nutch视频

http://blog.csdn.net/wdzxl198/article/details/8805736

2013-06-18 11:02:17 619

nutch视频

http://blog.csdn.net/wdzxl198/article/details/8805736

2013-06-18 11:02:00 79

转载 ganglia监控Hadoop各指标说明

监控指标大致如下:  default.shuffleInput  dfs.datanode  jvm  mapred.shuffleOutput  rpc  metricssystem  dfs.datanode.blockChecksumOp_avg_time块校验平均时间  dfs.datanode.blockChecksum

2013-06-17 13:54:40 1003

addlog-kestrel

addlog-kestrel

2013-05-19

java张孝祥面试宝典(最新)

该资源是最新的 大家赶快下 啊 每月都会有上传

2011-10-04

jQuery EasyUI 1.2 API文档.CHM

jquery easyui 1.2 api

2010-11-10

Ext3.3中文文档.CHM

最新文档 全部翻译完成 供大家学习

2010-11-10

jquery的1.4api

本资源不含假 骗人缺德 jquery 1.4的api 是我用了很长时间找到的 希望学习jQuery下 啊共同进步 啊

2010-06-17

flash实用公式数学公式物理公式

这是我辛苦整理的。希望大家珍惜 啊 ,把flash与数学公式,物理公式结合起来

2009-10-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除