hadoop
happylzs2008
这个作者很懒,什么都没留下…
展开
-
Yarn之ResourceManager详细分析笔记(一)
Yarn之ResourceManager详细分析笔记(一)http://zengzhaozheng.blog.51cto.com/8219051/1438204/2014-07-15 08:58:18http://zengzhaozheng.blog.51cto.com/82转载 2017-09-29 15:47:42 · 16360 阅读 · 0 评论 -
分布式文件系统HDFS解读
http://os.51cto.com/art/201306/399184.htmHDFS是HadoopDistributedFileSystem的简称,既然是分布式文件系统,首先它必须是一个文件系统,那么在Hadoop上面的文件系统会不会也像一般的文件系统一样由目录结构和一组文件构成呢?分布式是不是就是将文件分成几部分分别存储在不同的机器上呢?看完本文的HDFS解读,你就会明白的。转载 2017-09-26 01:12:30 · 380 阅读 · 0 评论 -
hadoop自带wordcount代码详解
http://blog.csdn.net/superman_xxx/article/details/51553120package cn.chinahadoop;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration转载 2017-09-01 09:47:12 · 312 阅读 · 0 评论 -
认识HDFS分布式文件系统
http://www.cnblogs.com/wxquare/p/4846438.html1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问。数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理。 (3)文件采用一次性写多次读的模型,文件一旦写入就无法修改。所以一致性模型非常简单。转载 2017-09-26 01:08:35 · 261 阅读 · 0 评论 -
YARNMRv2 Node Manager深入剖析—NodeManager启动Container流程分析
http://dongxicheng.org/mapreduce-nextgen/nodemanager-container-launch-process/1. 介绍NodeManager的一个最重要的功能是根据ApplicationMaster的要求启动container,由于各个节点上的container由ResourceManager进行统一管理和转载 2017-09-25 01:13:48 · 945 阅读 · 0 评论 -
NodeManager代码分析之NodeManager启动过程
http://blog.csdn.net/wuwenxiang91322/article/details/403844711、NodeManager概述NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的转载 2017-09-25 01:11:05 · 1029 阅读 · 0 评论 -
详解Hadoop核心架构
http://blog.csdn.net/u010159842/article/details/47172867Hadoop核心架构通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内转载 2017-09-25 01:07:07 · 1713 阅读 · 0 评论 -
Core Java 总结(异常类问题)
http://www.cnblogs.com/kubixuesheng/p/5968347.html所有代码均在本地编译运行测试,环境为 Windows7 32位机器 + eclipse Mars.2 Release (4.5.2)2016-10-17 整理 下面的代码输出结果是多少?为什么?并由此总结几个编程规范。 1 class smal转载 2017-09-25 01:06:23 · 448 阅读 · 0 评论 -
千回百折:百度Java研发offer斩获记和经验分享
http://www.cnblogs.com/kubixuesheng/p/5407166.html起因面试过程等待offer的过程中悟道Java面试常考知识点个人总结 从去年百度全面冻结hc,停止社招之后,今年陆续又缩小了实习生的招聘规模,每个部门的hc都非常紧张,相应的,也直接造成了实习生和校招招聘的难度被放大!因为hc实在是太少了。 好了,闲言少叙,既转载 2017-09-25 01:04:18 · 312 阅读 · 0 评论 -
Hadoop学习笔记(1):概念和整体架构
http://www.cnblogs.com/kubixuesheng/p/5525306.htmlHadoop学习笔记(1):概念和整体架构Hadoop简介和历史Hadoop架构体系Master和Slave节点数据分析面临的问题和Hadoop思想 由于工作原因,必须学习和深入一下Hadoop,特此记录笔记。 什么转载 2017-09-25 01:02:36 · 331 阅读 · 0 评论 -
hadoop2—namenode—HA原理详解
http://www.cnblogs.com/sy270321/p/4398815.htmlhadoop2—namenode—HA原理详解 在hadoop1中NameNode存在一个单点故障问题,也就是说如果NameNode所在的机器发生故障,那么整个集群就将不可用(hadoop1中有个SecorndaryNameNode,但是它并不是NameNode的备份,它只转载 2017-09-26 20:38:08 · 303 阅读 · 0 评论 -
Hadoop2.7.3完全分布式集群搭建和测试
http://blog.csdn.net/xiaoxiangzi222/article/details/52757168这几天在学习Hadoop相关的东西,前些时候,搭建了单机和伪分布式的集群。但是在搭建完全分布式集群的时候遇到很多问题,网上找到很多文章,感觉都有些差别,因此,再次汇总一下,把我的详细的搭建过程记录下来。参考了很多篇文章:http://www.w2b转载 2017-09-26 20:39:29 · 197 阅读 · 0 评论 -
深入理解NameNode和DataNode
深入理解NameNode和DataNode 转载▼ http://blog.sina.com.cn/s/blog_a36d34240102vkgh.html HDFS是以NameNode和DataNode管理者和工作者模式运行的。 NameNode的作用管理整个文件系统的命名空间。维护转载 2017-09-29 00:10:11 · 2112 阅读 · 0 评论 -
(一)分布式文件系统概述
http://www.cnblogs.com/jackchen-Net/p/6506321.html数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际转载 2017-09-29 00:08:51 · 409 阅读 · 0 评论 -
Hadoop学习(三)— hdfs : NameNode与DataNode的实现机制
http://blog.csdn.net/tracker_wjw/article/details/51245274 数据量越来越多,在一台PC的范围存不下了,那么就分配到更多的PC中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式文件管理系统很多,Hadoop的HDFS只是其中一种。HDFS主要分为两大角转载 2017-09-29 00:05:40 · 285 阅读 · 0 评论 -
hadoop能用到的系统端口
http://blog.csdn.net/wulantian/article/details/46341043hadoop能用到的系统端口 hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统转载 2017-09-25 01:28:30 · 171 阅读 · 0 评论 -
Hadoop2.x 让你真正明白yarn
http://dataunion.org/27202.html相同点hadoop2.x的发展是由于hadoop1.x的问题造成的。那么是什么问题造成的。比较流行的说法是jobtracker的问题,比如单点故障,任务过重。我们知道了除了Jobtracker,同时还有一个TaskTracker。我们看下图:上图中,有一个JobTracke转载 2017-09-25 01:16:11 · 500 阅读 · 0 评论 -
Shuffle和排序
http://www.cnblogs.com/yangyquin/p/5021234.html MapReduce确保每个reducer的输入都按键排序。系统执行排序的过程——将map输出作为输入传给reducer——称为shuffle。shuffle属于不断被优化和改进的代码库的一部分,从许多方面来看,shuffle是MapReduce的“心脏”,是奇迹发生转载 2017-09-27 01:06:41 · 427 阅读 · 0 评论 -
Hadoop快速入门---(官网)
http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。先决条件支持平台GNU/Linux原创 2017-09-01 16:23:19 · 225 阅读 · 0 评论 -
Hadoop之HDFS及NameNode单点故障解决方案
http://www.cnblogs.com/sxt-zkys/archive/2017/07/24/7229857.htmlHadoop之HDFS版权声明:本文为yunshuxueyuan原创文章。如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667HDFS介绍转载 2017-09-26 20:53:28 · 2471 阅读 · 0 评论 -
hadoop2.7.3在集群中配置多个namenode(federation cluster)
http://blog.csdn.net/wild46cat/article/details/53423472hadoop2.7.3在集群中配置多个namenode(federation cluster)首先需要说明的是,在集群中配置多个namenode和在集群中使用secondaryNamenode是完完全全的两码事。具体是如何区分的,我之后会在写一篇haoop官方当中的译文转载 2017-09-26 20:40:48 · 1859 阅读 · 2 评论 -
Yarn之ResourceManager详细分析笔记(一)待续
http://zengzhaozheng.blog.51cto.com/8219051/1438204/一、概述 本文将介绍ResourceManager在Yarn中的功能作用,从更细的粒度分析RM内部组成的各个组件功能和他们相互的交互方式。二、ResourceManager的交互协议与基本职能1、ResourceManager交互协议转载 2017-09-25 01:00:27 · 1030 阅读 · 0 评论 -
YARN/MRv2 Node Manager深入剖析—整体架构
http://dongxicheng.org/mapreduce-nextgen/nodemanager-architecture/(注:本文章主要翻译自Hortonworks官方博客的“Apache Hadoop YARN – NodeManager”,红色部分为我的注解。)NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop转载 2017-09-25 00:58:13 · 222 阅读 · 0 评论 -
Hadoop - YARN NodeManager 剖析
http://blog.csdn.net/zhangzhebjut/article/details/37730013一 概述 NodeManager是运行在单个节点上的代理,它管理Hadoop集群中单个计算节点,功能包括与ResourceManager保持通信,管理Container的生命周期、监控每个Container的资源使用(内存、CPU转载 2017-09-25 00:56:59 · 234 阅读 · 0 评论 -
Properties类
http://blog.csdn.net/ghuilee/article/details/457694731.Properties类简介 在Java.util 包下面有一个类 Properties,该类主要用于读取项目的配置文件(以.properties结尾文件和xml文件)。Properties 类表示了一个持久的属性集(用来存取键值对)。Properti转载 2017-08-04 01:40:29 · 178 阅读 · 0 评论 -
Configuration类详解
http://blog.csdn.net/ghuilee/article/details/457710031.configuration类简介 Hadoop没有使用Java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系转载 2017-08-04 01:39:34 · 5109 阅读 · 0 评论 -
Mapper类详解
[java] view plain copy"font-family:SimSun;font-size:14px;">public class Mapper { public class Context extends MapContext { public Context(Configuration conf, Ta转载 2017-08-04 01:38:40 · 7104 阅读 · 0 评论 -
IntWritable详解
http://blog.csdn.net/ghuilee/article/details/457051691.Hadoop数据类型如下图: 由上图的Writable层次结构图可以看到绝大多数的数据类型都实现了Writable、WritableComparable接口,在此先分析一下这两个接口情况。自顶下下逐步分析。Writabl转载 2017-08-04 01:35:59 · 549 阅读 · 0 评论 -
HDFS常用命令
http://www.cnblogs.com/gaopeng527/p/4314215.html1. 文件操作(1) 列出HDFS下的文件/usr/local/hadoop$bin/hadoop dfs -ls(2) 列出HDFS文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoop dfs -ls in转载 2017-08-04 01:34:05 · 218 阅读 · 0 评论 -
MapReduce 开发手册
MapReduce 开发手册在 MapReduce 中使用 OSS要在 MapReduce 中读写 OSS,需要配置如下的参数 conf.set("fs.oss.accessKeyId", "${accessKeyId}"); conf.set("fs.oss.accessKeySecret", "${accessKeySecret}");转载 2017-08-04 01:29:18 · 434 阅读 · 0 评论 -
阿里封神谈hadoop学习之路 封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 spark
阿里封神谈hadoop学习之路 封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊hadoop 学生 spark摘要: 在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS转载 2017-08-03 01:32:01 · 388 阅读 · 0 评论 -
hadoop 分片与分块,map task和reduce task的理解
HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。 把File划分成Block,这个是物理上真真实实的进行了划分,数转载 2017-08-03 00:57:27 · 207 阅读 · 0 评论 -
hadoop 分片与分块,map task和reduce task的理解
http://www.cnblogs.com/qinwangchen/p/5837940.htmlhadoop 分片与分块,map task和reduce task的理解分块:Block HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不转载 2017-08-10 01:38:10 · 374 阅读 · 0 评论 -
hadoop核心逻辑shuffle代码分析-map端
http://blog.csdn.net/mrtitan/article/details/8711366?utm_source=tuicool&utm_medium=referral首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈转载 2017-08-04 01:41:50 · 227 阅读 · 0 评论 -
Hadoop新版本中map任务待处理split大小的计算方法
1. split大小的计算公式 minSize=max{minSplitSize,mapred.min.split.size} (minSplitSize大小默认为1B) maxSize=mapred.max.split.size(不在配置文件中指定时大小为Long.MAX_VALUE) splitSize=max{minSize,min{maxSize,blockSize转载 2017-08-11 15:52:48 · 1245 阅读 · 0 评论 -
Hadoop分布式集群搭建
http://blog.csdn.net/github_33934628/article/details/73745051http://blog.csdn.net/henni_719/article/details/77763051件准备JDK: jdk1.8.0_131 Hadoop: hadoop-2.6.5二、环境说明使用三台机器做来搭建H转载 2017-09-25 00:16:40 · 246 阅读 · 0 评论 -
hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker介绍
http://www.aboutyun.com/thread-7778-1-1.html1.job的本质是什么?2.任务的本质是什么?3.文件系统的Namespace由谁来管理,Namespace的作用是什么?4.Namespace 镜像文件(Namespace image)和操作日志文件(edit log)文件的作用是什么?5.Namenode记录着每个文件中各个转载 2017-09-23 13:14:50 · 207 阅读 · 0 评论 -
Hadoop中SecondaryNameNode工作机制
http://www.cnblogs.com/thinkpad/p/5173705.html首先来看一下HDFS的结构,如下图:如上图,在HDFS架构中,NameNode是职责是管理元数据信息,DataNode的职责是负责数据存储,那么SecondaryNameNode的作用是什么呢?其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案,转载 2017-09-23 13:12:36 · 263 阅读 · 0 评论 -
Hadoop学习笔记——源码初窥
http://www.cnblogs.com/zjfstudio/p/3918669.htmlHadoop学习笔记——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例。接下来其实就有两条路可走了,一条是继续深入研究其编程及部署等,让其功能使用的淋漓尽致。二是停下来,先看看其源码,研究下如何实现的。在这里我转载 2017-08-15 10:46:53 · 231 阅读 · 0 评论 -
Hadoop学习笔记-搭建源码学习环境
http://www.cnblogs.com/zjfstudio/p/3919331.htmlHadoop学习笔记——搭建源码学习环境上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了。但是看代码用什么,难不成gedit?,单步调试呢? 看程序不能调那多痛苦啊,想看跟踪一下变量,想看一下执行路径都难。所以这里,我们得转载 2017-08-15 10:43:25 · 212 阅读 · 0 评论