hadoop
文章平均质量分 77
flyingpig4
这个作者很懒,什么都没留下…
展开
-
Hadoop RPC源码分析
Hadoop RPC :与传统的RPC程序相似,分为Server端和Client端二个部分,下面将分别介绍其工作机制 1.Client端分析: |-->Client(Class valueClass, Configuration conf, SocketFactory factory) |-->分别设置 maxIdleTime、tcpNoDelay、pingInterval值 |-->t原创 2012-06-05 15:42:03 · 1423 阅读 · 0 评论 -
Namenode源代码分析
.namenode结构简介: 1.基本概念: |-->一个hdfs cluster包含一个NameNode和若干的DataNode,NameNode(以下简称nn)是master,主要负责管理hdfs文件系 统,具体地包括namespace管理(其实就是目录结构),block管理(其中包括 filename->block,block->ddatanode list的原创 2012-08-05 18:07:16 · 1694 阅读 · 0 评论 -
Hadoop Configuration 加载资源文件
Configuration 的loadResources()方法 (采用lazy加载) 1.解释了为什么会加载一些默认文件(*.site.xml) 2.测试了一下用file的方式去读取hdfs文件,不行 else if (name instanceof Path)中,会转换为本地文件,最后变成d:\\hdfs地址 linux下也试了一下,同样是不行的,这种原创 2013-04-27 17:16:12 · 2110 阅读 · 1 评论 -
Hadoop升级方案
1.bin/hadoop dfsadmin -finalizeUpgrade |清理之前的备份 2.hadoop dfsadmin -upgradeProgress status |查看更新状态 3.拷贝 3.1:u4的conf文件拷贝至u6的conf文件中 3.2:bin目录下修改迁移: hadoop-deamon.sh中log4j的配置修改原创 2013-04-24 17:08:04 · 1309 阅读 · 0 评论 -
Hadoop内存管理及cpu管理
Hadoop目前较新版本的内存管理(含cpu)分为三个层面,包括JobTracker对Job提交阶段, TaskTracker内存定期检查,JobTracker分配 task扩展点 JobTracker 设置参数控制Job提交时的内存设置 1.1:initializeTaskMemoryRelatedConfig() |初始化TaskMemory |-->memSizeFo原创 2013-04-03 10:20:12 · 2084 阅读 · 1 评论 -
Hadoop userlog日志丢失原因
之前有一篇文章,分析Hadoop日志限制(http://blog.csdn.net/bxyz1203/article/details/8107125) 文章仔细分析了MR中Java,Streaming,pipes三种Job方式对Log日志的限制情况 在实际使用中,我们发现用户自定义输入的log太多,userlog硬盘增大,导致磁盘过满,影响TaskTracker执行 由此我们用mapred.原创 2013-03-17 17:30:14 · 2870 阅读 · 0 评论 -
Hadoop lzo详细安装手册
方式-1:yum install lzop 方式-2:手动安装,安装步骤如下: 部署 1. 所需软件 gccantlzo-2.05.tar.gztoddlipcon-hadoop-lzo-2bd0d5b.tar.gzivy-2.0.0-rc2.jar 2. 安装lzo tar -zxvf lzo-2.05.tar.原创 2013-02-21 16:35:08 · 2856 阅读 · 1 评论 -
公平调度器一次分配多个Task至TaskTracker算法
TaskTracker.heartbeat()机制请求处理任务,Fair Scheduler确认Job,然后给TaskTracker执行 此时可动态设置一个TaskTracker多个slot任务,具体条件算法如下(以Map为例) 1.mapsAssigned == mapCapacity 用户设置的单次心跳最多执行task数量 2.runningMaps == runnableM原创 2013-03-04 23:24:33 · 789 阅读 · 0 评论 -
Hadoop distcp拷贝
Hadoop数据迁移(集群内迁移,集群间迁移),主要通过拷贝数据来完成。对于小量数据,可以使用"hadoop fs -cp"来完成;对于大量数据,可以借助Distcp 来完成。 Distcp介绍 Distcp是Hadoop自带的分布式拷贝工具。它基于MapReduce实现,将需要拷贝的源数据尽量平均地split到多个map中,每个map将负责的split拷贝到目的集群上,最终利用了Ma原创 2013-02-20 11:12:28 · 13141 阅读 · 0 评论 -
Linux patch补丁
1、使用diff创建补丁test1.patch [armlinux@lqm patch]$ diff -uN test0 test1 > test1.patch 【注:因为单个文件,所以不需要-r选项。选项顺序没有关系,即可以是-uN,也可以是-Nu。】 [armlinux@lqm patch]$ ls test0 test1 test1.patch [armlinux@lqm pa转载 2013-02-16 10:32:26 · 677 阅读 · 0 评论 -
HBase安装与配置
HBase简介:HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 安装步骤: 1.下载安装包:http://www.fayea.com/apache-mirror/hbase/ 我选择的0.94版本 hbase-0.94.0.tar.gz 解压缩至/applicatio原创 2012-08-01 15:56:02 · 2246 阅读 · 0 评论 -
Hadoop TaskTracker 自我检测机制
Hadoop TaskTracker 自我检测机制 机制:通过TaskTracker在启动时循环检测,设计时通过捕获异常来完成状态检测 |-->TaskTracker.run() |-->initialize(); |-->if (shouldStartHealthMonitor(this.fConf)) |-->startHealthMonitor(t原创 2012-11-08 16:27:30 · 840 阅读 · 0 评论 -
Hadoop Map/Reduce执行全流程关键代码
Hadoop Map/Reduce 执行流程关键代码 JobClient.runJob(conf) | 运行job |-->JobClient jc = new JobClient(job); |-->RunningJob rj = jc.submitJob(job); |-->submitJobInternal(job); |-->int reduces = job.getNumRedu原创 2012-09-17 11:57:01 · 1767 阅读 · 0 评论 -
HBase region预划分及查找过程
1.Region预划分: RegionSplitter java.lang.Object org.apache.hadoop.hbase.util.RegionSplitter 切分方式:分别按照不同的Split进行切分 bin/hbase org.apache.hadoop.hbase.util.RegionSplitter -c 60 -f test:rs myTa原创 2012-09-11 17:48:06 · 11757 阅读 · 2 评论 -
hadoop datanode源码分析
DataNode源代码分析: 1.简介:DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data, 同时周期性地将所有存在的Block信息发送给NameNode 2.main启动DataNode 2.1:shell脚本启动DataNode |-->hadoop/bin/start-all.sh |-->start-dfs.sh原创 2012-06-15 17:53:39 · 1802 阅读 · 1 评论 -
HBase-put写操作源码分析
Hbase Put流程 1.客户端提起请求 HTable.put(); |-->writeBuffer.add(put); |刷入内存缓存,可设置实时生效 |-->线程池提交 |-->for (Entry> e: actionsByServer.entrySet()) |-->futures.put(e.getKey(), pool.submit(cre原创 2013-10-12 15:34:58 · 1922 阅读 · 0 评论