Hadoop
文章平均质量分 92
Im-back
这个作者很懒,什么都没留下…
展开
-
hadoop 绑定到ipv4
可以用netstat -anp |grep myport看本机要启动的服务是否启动到位,经常遇到的情况是地址绑定到ipv6上了,这里两种思路:一是彻底禁用ipv6,而是在hadoop-evn.sh中添加"export HADOOP_OPTS="-Djava.net.preferlIPv4Stack=true"让java程序使用ipv41.jdk2.关闭IPV6打开/et转载 2013-08-29 09:50:59 · 1554 阅读 · 0 评论 -
使用 FileSystem JAVA API 对 HDFS 进行读、写、删除等操作
Hadoop文件系统 基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。 Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。该类是一个抽象类,通过以下两种静态工厂方法可以过去FileSystem实例: public static FileSystem.get(Conf转载 2014-08-14 07:21:48 · 441 阅读 · 0 评论 -
hadoop不同版本之间的集群复制
hadoop不同版本之间的集群复制。1.基础使用hadoop distcp 来进行集群间的数据复制。2.实战如果两个集群之间版本不一样,应该这样来复制。hadoop distcp hftp://source/source hdfs://dest:9000/source为啥是hftp呢,因为不同版本rpc不太一样。如果一个集群闲置,尽量使用它的MR能力。有一个要注转载 2014-07-30 16:26:01 · 6400 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 M转载 2014-06-25 11:04:35 · 694 阅读 · 0 评论 -
[Hadoop源码解读](一)MapReduce篇之InputFormat
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInputFormat,用来读取数据库的DBInputFormat等等。转载 2014-05-13 17:16:46 · 478 阅读 · 0 评论 -
[Hadoop源码解读](三)MapReduce篇之Job类
下面,我们只涉及MapReduce 1,而不涉及YARN。 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobName,然后配置输入输出路径,设置我们的Mapper类和Reducer类,设置InputFormat和正确转载 2014-05-13 17:19:21 · 533 阅读 · 0 评论 -
[Hadoop源码解读](二)MapReduce篇之Mapper类
前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。 这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担主要的处理工转载 2014-05-13 17:18:03 · 431 阅读 · 0 评论 -
[Hadoop源码解读](四)MapReduce篇之Counter相关类
当我们定义一个Counter时,我们首先要定义一枚举类型:[html] view plaincopyprint?public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER }; 然后,我们就可以在mapper或reducer里面增加它转载 2014-05-13 17:19:52 · 471 阅读 · 0 评论 -
[Hadoop源码解读](五)MapReduce篇之Writable相关类
前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的。 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoop的序列化格式,Hadoop定义了这样一个Writable接口。[html] view plaincopyprin转载 2014-05-13 17:20:50 · 452 阅读 · 0 评论 -
关于Hadoop的五个常见问题
关于Hadoop的五个常见问题(本文译自Cloudera公司Christophe Bisciglia的一篇博客,我做了一些调整和注释) 最近关于Hadoop有很多各种各样的传言,几天前,Yahoo的一些朋友声称Google的Terasort记录用的也是Hadoop, Facebook的人也声明他们的2.5 Petabyte的“Hadoop Powered Data War转载 2014-04-03 11:21:17 · 822 阅读 · 0 评论 -
hadoop搭建与eclipse开发环境设置
初次使用eclipse开发环境跑MapReduce,会有权限要求,报错如下: org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE,原创 2013-09-23 11:33:41 · 770 阅读 · 0 评论 -
hadoop 9000端口不通判断
hadoop搭建完毕后,9000端口不能正常访问,namenode上telnet自己的9000端口居然不通,namenode不能正常搭载datanode。 看端口nestata -ano 发现9000端口是用的ipv6的格式,关闭ipv6格式,重启机器,搞定。 下面是datanode到namenode不通的log2013-08-28 17:51:31,202 INFO or原创 2013-08-29 10:05:38 · 11907 阅读 · 0 评论 -
Hadoop-v2 FS Shell使用介绍
Hadoop-v2 FS Shell使用介绍 HDFS(Hadoop Distributed Filesystem)提供一个类似于Unix Shell的命令接口FSShell,用于client和HDFS进行数据交互。调用FSShell命令的方式:$HADOOP_HOME/bin/hadoop fs 其中,$ HAOOP_HOME指hadoop所在的目录。所有的的FS shell命转载 2013-08-28 09:22:24 · 862 阅读 · 0 评论 -
secondarynamenode配置使用总结
一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将sec转载 2013-08-29 11:27:36 · 1619 阅读 · 0 评论 -
使用ganglia监控hadoop及hbase集群
介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的转载 2016-06-21 17:46:34 · 484 阅读 · 0 评论