hadoop2.2.0 边角料(四)

看了一上午,终于找到了HDFS写一个新的block做了个啥。 DFSClient传数据最终是在DFSOutputStream中完成的。它内部的DataStreamer来完成真正的传输工作。 1.setup stream nextBlockOutputStream locateFollowingBlock调用namenode.addBlock向NN申请新的block,那么弄得会返回一个新的b

hadoop2.2.0 边角料(三)

hadoop 2.2.0 使用protobuf实现消息的串行化,这篇blog主要是以BlockChecksum为例,详细看一下如何发送请求,并接收响应。 1. DFSClient在getFileChecksum()中连接datanode IOStreamPair pair = connectToDN(socketFactory, connectToDnViaHostname,

HDFS修改代码(一)

加入RsyncCopy的过程如下: 编译过后 把/home/ChenKang/RsyncHadoopCompile/hadoop-tools/hadoop-rsynccopy/target目录下的 hadoop-rsynccopy-2.2.0-sources.jar拷贝到/home/ChenKang/hadoop-2.2.0/share/hadoop/tools/sources目录下 ha

ssh-keygen的使用方法

一、概述 1、就是为了让两个linux机器之间使用ssh不需要用户名和密码。采用了数字签名RSA或者DSA来完成这个操作 2、模型分析 假设 A (为客户机器,B(为目标机; 要达到的目的: A机器ssh登录B机器无需输入密码; 加密方式选 rsa|dsa均可以,默认dsa   二、具体操作流程

函数闭包原理


hadoop2.2.0 边角料(二)

上一篇文章忘了提了,这一组博客是我为了要做一个hdfs的项目,对hadoop学习的一组文章。并且只关注了我觉得会用到的API和相关流程,主要是了解DFSClient的工作过程,涉及到DFSClient与NN和DN的通信。以前没有用过java,只了解一些基本语法,对hadoop的了解也比较粗浅,如果有什么理解错误的地方,希望看到这个博客的人能给我指出来,先谢过了。 这次看的问题是如何从Datano

hadoop2.2.0 边角料(一)

hadoop dfs -copyFromLocal 是如何执行的? bin/hadoop脚本调用hdfs脚本hdfs调用org.apache.hadoop.fs.FsShell类FssShell的main函数调用res = ToolRunner.run(shell, argv);//shell是FsShell的一个实例ToolRunner.run调用的是FsShell中的run函数,其中

git学习

本文是《版本控制之道-----使用git》的学习笔记 基本概念: 1.版本库:分为本地版本库和上游版本库 2.工作目录 3.标签:用标签记录项目的关键节点,是项目内部版本号的一个别名 4.分支:git主分支默认为master,分支主要用于支持项目不同的发布版本,支持一个特定功能的开发 5.合并:需要了解冲突处理 6.索引(index):索引即暂存区(staging area),用

ubuntu 12.04 + hadoop 2.2 单机部署

http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/SingleCluster.html 1.Mapreduce Tarball $ mvn clean install -DskipTests $ cd hadoop-mapreduce-project $ mvn clean install asse

Ubuntu 12.04下编译hadoop 2.2.0

本文大部分内容源自参考文献1。 1.使用Maven3.1.1的时候出现了很多错误,果断放弃。 我选择环境如下: Apache Maven 3.0.5 (r01de14724cdef164cd33c7c8c2fe155faf9602da; 2013-02-19 21:51:28+0800) Maven home: /home/hadoop/apache-maven-3.0.5

