hadoop
文章平均质量分 75
第九滴眼泪
有团队精神
展开
-
hadoop源码研读之路(四)----IPC.RPC
写这篇文章的时候比较吃力,因为我也不知道什么是IPC,基础知识太薄弱了。进程间通信(IPC,Inter-Process Communication),指至少两个进程或线程间传送数据或信号的一些技术或方法。进程是计算机系统分配资源的最小单位。每个进程都有自己的一部分独立的系统资源,彼此是隔离的。为了能使不同的进程互相访问资源并进行协调工作,才有了进程间通信。这些进程可以运行在同一计算机上或网络连原创 2012-05-30 11:40:31 · 2020 阅读 · 0 评论 -
hadoop启动错误总结
1.hadoop3: mkdir: cannot create directory `/usr/local/hadoop/bin/../logs': Permission denied把所有Datanode节点执行下面命令[hadoop@hadoop3 local]$ chown -R hadoop:hadoop hadoop-0.20.2/2.2012-08-05 1原创 2012-08-05 15:12:16 · 11010 阅读 · 4 评论 -
用 Ganglia 监控hadoop集群
随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务原创 2012-08-12 17:03:10 · 13507 阅读 · 8 评论 -
hadoop源码研读之路(八)----DataNode本地数据块管理
刚接触Hadoop的时候,老师问我咱们上传的数据存放到那里了,我说我不知道,当时很囧。呵呵。在hdfs-site.xml中dfs.data.dir/home/hadoop/data这行数据就代表了数据块存放地址,现在才明白过来。在Linux上有四个目录1.current存放的是当前有效的数据块,2.detach存的是快照3.tmp保存的hi一些操作需要的临时原创 2012-07-27 16:31:26 · 1270 阅读 · 0 评论 -
hadoop源码研读之路(七)----HDFS的数据管理
HDFS主要通过NameNode、DataNode和Client端来管理数据NameNode主要负责管理文件系统的命名空间、集群的配置、和存储块的复制。NameNode会将系统的元数据存储在内存中。元数据主要包括下面几个信息:1.namespace用来描述整个文件系统的体系结构(文件树)2.access control information 用来检测访问和控制权限3.ma原创 2012-07-27 11:18:44 · 1252 阅读 · 0 评论 -
Linux下SSH免密码登录
搭建hadoop集群的时候一定会用到的就是SSH免密码登录[hadoop@hadoop1 ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Enter passphrase (empty原创 2012-08-04 17:48:10 · 6878 阅读 · 0 评论 -
hadoop源码研读之路(六)----RPC的Client端和Server端
既然是RPC,就一定有Client端和Server端,如果进行一次HDFS的读写,其中一个DataNode需要跟NameNode建立连接,也需要和其他的DataNode建立连接,那么每一个Client需要维护多个连接。同时为了减少不必要的连接,Client的做法是拿Connectionid来作为Connection的ID。RPC Client的结构Client.Connecti原创 2012-07-19 21:26:37 · 1708 阅读 · 0 评论 -
如何搭建hadoop集群
今天决定重新搭建hadoop集群,如果是新手看这篇文章一定不要觉得很难,你只需要耐心和细心就ok了准备工作1.判断机器上是否有ssh服务,[jinyang@OnlyKing Desktop]$ ssh -verisonOpenSSH_5.3p1, OpenSSL 1.0.0-fips 29 Mar 2010Bad escape character 'rison'.原创 2012-08-02 20:08:44 · 1169 阅读 · 0 评论 -
hadoop源码研读之路(五)----Java动态代理
熟悉设计模式的人对于代理模式可能都不陌生。代理对象和被代理对象一般实现相同的接口,调用者与代理对象进行交互。代理的存在对于调用者来说是透明的,调用者看到的只是接口。代理对象则可以封装一些内部的处理逻辑,如访问控制、远程通信、日志、缓存等。比如一个对象访问代理就可以在普通的访问机制之上添加缓存的支持。这种模式在RMI和EJB中都得到了广泛的使用。传统的代理模式的实现,需要在源代码中添加一些附加的类。原创 2012-07-16 16:31:27 · 1750 阅读 · 0 评论 -
hadoop源码研读之路(三)----序列化
简单来说,序列化就是将对象(实例)转换为字符流(字符数组)的过程,转换后的字符流可用于网络传输或写入磁盘;相对的,反序列化就是将字符流转换成对象的过程。Hadoop有自己的序列化实现,并已提取为Avro子项目。序列化要求具有字符流紧凑,处理快速,可扩展,多语言支持特性。Hadoop并没有采用Java的序列化,而是引入了它自己的系统。Hadoop中定义了两个序列化相关的接口:Writable原创 2012-05-22 21:26:48 · 4066 阅读 · 1 评论 -
hadoop源码研读之路(二)----配置类
Configuration是org.apache.hadoop.conf包中的主类Configuration类中包含了10个属性private static final Log LOG = LogFactory.getLog(Configuration.class);LOG是记录日志的对象private boolean quietmode = ture;quietmod原创 2012-05-15 21:43:17 · 1562 阅读 · 1 评论 -
Hadoop源代码研读之路(1)
首先,阅读过此文的朋友,希望你们能留下宝贵的意见。此背景以hadoop-0.20.2为基础解压完之后如下:/bin:包含一些集群的命令/C++:应该是在hadoop上用C++开发的接口/conf:hadoop的配置文件/contrib:一些插件/docs:说明文档/ivy:不知道什么意思/lib:一些架包/librecordio:也不知道什么意思/src原创 2012-05-14 11:49:04 · 1910 阅读 · 0 评论 -
MapReduce例子1--wordcount
1.MapReduce编程模型MapReduce采用的是“分而治之”的思想,把对大数据集合的操作,分发给一个主节点管理下的各个分节点共同完成,通过整合各个分节点的中间结果,得到最终结果。简单的来说MapReduce就是”任务的分解和结果的合并“。在hadoop中,用于执行MapReduce的机器角色有两种,一是JobTraker,主要负责任务的调度,二是TaskTraker,主要负责执行任原创 2013-05-12 14:13:47 · 1560 阅读 · 0 评论