hadoop
文章平均质量分 76
xyz2011
研究Hadoop
展开
-
Java并发编程总结---Hadoop核心源码实例解读
程序设计需要同步(synchronization),原因:1)复杂的功能要求的需要使用多线程编程,线程之间存在读写共享变量。2)读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素干扰。3...原创 2012-04-01 15:46:11 · 295 阅读 · 0 评论 -
分析”failed to report status for 602 seconds”
测试下载一个大文件是否会出现Task attempt_201010291725_0041_m_000000_1 failed to report status for 602 seconds. Killing!1、找一个比较大的文件:http://down1.520sys.cn/down/tomato/FQ_GhostXPsp3_1.5_%B4%BF%BE%BB%B0%E6.iso ,这个文件...2010-11-10 08:48:22 · 227 阅读 · 0 评论 -
喜欢hadoop的同学们值得一看
海量数据正在不断生成,对于急需改变自己传统IT架构的企业而言,面对海量数据,如何分析并有效利用其价值,同时优化企业业务已成为现代企业转型过程中不可避免的问题。作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了,备受关注的Yahoo新成立的子公司——Horton...原创 2011-07-03 15:50:22 · 164 阅读 · 0 评论 -
hadoop优化
一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements Writa...原创 2011-07-03 15:43:00 · 120 阅读 · 0 评论 -
hadoop错误之二:could only be replicated to 0 nodes, instead of 1
WARN hdfs.DFSClient: NotReplicatedYetException sleeping /user/administrator/chen3/NOTICE.txt retries left 210/01/07 19:50:23 INFO hdfs.DFSClient: org.apache.hadoop.ipc.RemoteException: java.io....2011-02-22 08:23:49 · 134 阅读 · 0 评论 -
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
特别注意:hadoop的相关配置文件尽量使用主机名而不是ip地址(使用ip时,执行mapred可能出现“java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.9.138:9000/home/hadoop/HadoopInstall/tmp/mapred/system/job_200911032130_0008/job.xml, e...2011-02-21 16:02:20 · 841 阅读 · 0 评论 -
linux下如何配置分布式检索
1、确保这台机子上已经安装了tomcat.2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps.3、进入$TOMCAT_HOME/webapps/WEB-INF/classes. 3.1 配置nutch-site.xml <property> <name>http.ag...2011-02-18 09:47:51 · 103 阅读 · 0 评论 -
mapreduce编程(二)- 大象书中求每一年的最高温度
书上的例子是为了取出一年当中气温最高的值,那么将年份和气温做了一个复合的key.1 通过设置了partitioner来进行分区。因为分区是按照年份来进行,所以同年的数据就可以分区到一个reducer中。2 自定义key比较器,按照年份升序,温度值降序。这样map输出的所有kv对就是按照年份升序,温度值降序排列的。3 自定义分组比较器,所有同一年的数据属于同一个组,那么在redu...原创 2010-11-02 09:39:10 · 369 阅读 · 0 评论 -
使用hadoop的lzo问题!
使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点:我们这使用的是hadoop客户端。1.压缩解压的速度很快2.lzo压缩是基于block分块的。这样,一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。虽然Lzo的压缩比没有Gzip高,不过由于其前2个特性,在Hadoop上使用Lzo还是能整体提升集群的性能的。能提高效率的即是...2011-08-24 17:12:28 · 212 阅读 · 0 评论 -
hadoop知识点整理
1. Hadoop 是什么?Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。2. Hadoop 运行于什么平台?1. Java 1.5.x 或更高版本(推荐使用 Sun 的实现版本);2.支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/...原创 2011-07-06 11:51:19 · 218 阅读 · 0 评论 -
Hadoop删除节点(Decommissioning Nodes)
1.集群配置 修改conf/hdfs-site.xml文件 Xml代码 <property> <name>dfs.hosts.exclude</name> <value>/data/soft/hadoop/conf/excludes</value> <descrip...原创 2011-07-06 11:52:23 · 873 阅读 · 0 评论 -
hadoop如何恢复namenode
Namenode恢复 1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.checkpoint.period</name> <value>3600</value> <des...原创 2011-07-06 12:36:44 · 378 阅读 · 0 评论 -
hadoop常见错误及解决办法!
转:1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/secu...原创 2011-04-07 12:18:27 · 2410 阅读 · 0 评论 -
Hadoop节点热拔插
转 :一、 Hadoop节点热拔插在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。2.在集群中添加节点:a. 把新节点IP或者主机名字加入到主节点的slaves文件。b. 登录到新节点,执行:cd $HADOOP_HOME && bin/hadoop-daemon.sh start datanode ...原创 2011-04-07 12:16:45 · 124 阅读 · 0 评论 -
hadoop动态添加节点
转: 有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)2.在新机器上进入hadoop安装目录 $bin/hadoop-daemon.sh start datanode...原创 2011-04-07 12:14:19 · 130 阅读 · 0 评论 -
欢迎大家讨论hadoop性能优化
大家知道hadoop这家伙是非常吃内存的。除了加内存哦!如果大家有什么好的优化方法的话,欢迎一起来讨论。2011-04-06 15:42:50 · 200 阅读 · 0 评论 -
secondarynamenode配置使用总结
一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将sec...原创 2011-07-07 08:37:13 · 1137 阅读 · 0 评论 -
Map/Reduce中的Combiner的使用
一、作用1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3)2、combiner还具有类似本地的reduce功能.例如h...原创 2011-07-07 08:36:30 · 174 阅读 · 0 评论 -
Map/Reduce中的Partiotioner使用
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观,同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao 1tao ...原创 2011-07-07 08:35:26 · 172 阅读 · 0 评论 -
hadoop如何添加节点
1.部署hadoop 和普通的datanode一样。安装jdk,ssh 2.修改host 和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 4.在新节点的机器上,启动服务 Java代码 [root@slave-004 hadoop]# ./bin/hadoop-dae...原创 2011-07-06 12:43:52 · 174 阅读 · 0 评论 -
HDFS的缺点及改进策略
HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点。目前而言,它在以下几个方面就效率不佳: 低延时访问 HDFS不太适合于那些要求低延时(数十毫秒)访问的应用程序,因为HDFS是设计用于大吞吐量数据的,这是以一定延时为代价的。HDFS是单Master的,所有的对文件的请求都要经过它,当请求多时,肯定会有延时。当前,对于那些有低延时要求的应用程序,HBase是一个更好...原创 2010-10-20 17:05:09 · 118 阅读 · 0 评论 -
hadoop发展趋势
Apache Nutch是Hadoop的源头,该项目始于2002年,是Apache Lucene 的子项目之一。至2004年,Google在OSDI上公开发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distribu...原创 2010-09-27 21:13:21 · 326 阅读 · 0 评论 -
Hadoop Shell-01
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认sch...原创 2010-09-14 13:44:51 · 260 阅读 · 0 评论 -
Eclipse下hadoop插件的配置
1、首先打开/hadoop-0.19.0/contrib/ 会发现有一个eclipse-plugin【简称EP】.这个插件就和IBM所说的插件是一样的。现在我们开始下一步的配置吧。2、直接把EP放到eclipse/plugins下。然后重启eclipse.现在你会发现 window/show-view 多了一个一项(MapReduce Tools),这个正是我们所需要的。3、找到MapRe...原创 2010-06-29 14:16:47 · 120 阅读 · 0 评论 -
namenode与secondaryNamenode的联系
NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件(edits)。当一个NameNode启动时,它首先从一个映像文件(fsimage)中读取HDFS的状态,接着应用日志文件中的edits操作。然后它将新的HDFS状态写入(fsimage)中,并使用一个空的 edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits,所以一段时间后日志文件可...原创 2010-06-28 10:09:59 · 220 阅读 · 0 评论 -
hadoop基础
Hadoop是什么? 答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。 二、多少数据算海量数据? 答:个人认为,TB(1024...原创 2010-09-06 22:03:43 · 93 阅读 · 0 评论 -
hadoop-0.20.2安装找不到JAVA_HOME解决办法
在安装hadoop-0.20.2时出现了找不到JAVA_HOME,配置方法跟官方的版本一致,具体请参考前边的文章或者网上的文档。[color=darkred]最好每台机子上配置的JDK都一样,要不然会出现很奇怪的问题[/color]。配置好以后,运行start-all.sh时,确出现如下的报错:==================================================...2010-07-12 08:27:13 · 1178 阅读 · 0 评论 -
雅虎对Hadoop升级 加入安全与工作流管理
开源中国社区北京时间6月29日晚间消息,据国外媒体报道,雅虎周二宣布,对开源软件Hadoop进行了重大升级,加入安全及工作流管理功能。Hadoop是一项开源技术,主要应用于数据中心和云计算等领域,它可以帮助企业从数据本身,以及更好的管理中获得价值。随着互联网的快速普及,数据量也随之骤增,对于企业而言,安全有效地管理这些数据是一个很大的挑战。而雅虎Hadoop则可以帮助企业解决这一 难题...原创 2010-07-11 21:53:22 · 132 阅读 · 0 评论 -
hadoop知识
hadoop 技术论坛。http://bbs.hadoopor.com/index.php 1.hadoop0.20.0 + eclipse环境搭建http://bbs.hadoopor.com/thread-43-1-1.html 台湾一个人写的,很好。hadoop0.20.0 + eclipse环境搭建http://trac.nchc.org.tw/cloud/wiki/waue/20...原创 2010-07-10 10:35:24 · 120 阅读 · 0 评论 -
hadoop 读文件解析
<br />下图描述了在文件读过程中,client、NameNode和DataNode三者之间是如何互动的。<br />11111.jpg(32.23 K)<br />2009-11-17 17:42:10<br /><br /><br /><br />1. client调用get方法得到HDFS文件系统的一个实例(DistributedFileSystem)。然后调用它的open方法。<br /><br />2. DistributedFileSystem通过RPC远程调用Name转载 2010-10-25 15:51:00 · 720 阅读 · 0 评论 -
Hadoop Shell-02
概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项 描述--config confdi...原创 2010-09-14 13:45:37 · 194 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,Long...原创 2010-06-30 13:39:55 · 254 阅读 · 0 评论 -
MapReduce工作原理
Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。一个Map-Reduce任务的执行过程以及数据输入输出的类型...原创 2010-06-30 13:45:25 · 147 阅读 · 0 评论 -
hadoop-FAQ
hadoop基础,挺详细的。希望对大家有用!2011-05-15 11:38:14 · 123 阅读 · 0 评论 -
hadoop集群详解
hadoop集群详解我这里是两台机子(可以n台),所以每台机子都给了相同的用户名和密码(最好是这样,放在root下更好)。Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程。【1】: 安装和启动SSH协议所有机器上安装SSH协议并启动服务,在所有机器上执行以下命令:$ sudo apt-get install ssh ...原创 2010-07-07 10:25:36 · 155 阅读 · 0 评论 -
hadoop 序列化
Hadoop的序列化在hadoop的框架中要使一个类可序列化,要实现Writable接口的两个方法:public interface Writable { /** * Serialize the fields of this object to <code>out</code>. * * @param out <c...原创 2010-07-04 21:50:57 · 93 阅读 · 0 评论 -
Apache Hadoop 0.21版本新功能ChangeNode
Apache Hadoop 0.21.0 在2010年8月23日release了。Cloudera的Tom White哥(OReilly.Hadoop.The.Definitive.Guide第一版的作者)已经将该版本对比0.20的修改进行了整理,记录下来以作备忘。apache社区上一个release的版本还是0.20.0版本,还是在去年的四月份 release的。所以这个版本中引入了许多新的...原创 2011-04-21 22:04:45 · 183 阅读 · 0 评论 -
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间。所以...原创 2011-04-21 11:07:34 · 249 阅读 · 0 评论 -
hadoop中HDFS详解
一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数...2011-01-06 09:59:17 · 168 阅读 · 0 评论 -
hadoop的运行原理
接上篇博客写的.今天现简单介绍下hadoop的运行原理.hadoop的配置在这里我就不详细讲了,网上关于这方面的文章很多,有单机版的,也有集群的。hadoop主要由三方面组成:1、HDFS2、MapReduce3、HbaseHadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的...2011-01-06 09:52:06 · 109 阅读 · 0 评论