hadoop
文章平均质量分 50
iteye_18210
这个作者很懒,什么都没留下…
展开
-
hadoop namespaceID err
今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capac...原创 2011-05-31 10:24:02 · 173 阅读 · 0 评论 -
hadoop 文章列表
1.使用 Linux 和 Hadoop 进行分布式计算2.用 Hadoop 进行分布式数据处理,第 1 部分: 入门3.用 Hadoop 进行分布式数据处理,第 2 部分: 进阶 4. Hadoop 进行分布式数据处理,第 3 部分: 应用程序开发 5.用 Hadoop 进行分布式并行编程, 第 1 部分6.用 Hadoop 进行分布式并行编程,...原创 2010-11-04 20:57:44 · 91 阅读 · 0 评论 -
Hadoop的配置类 Configuration
Hadoop的配置类是由资源指定的,资源可以由一个String或Path来指定:String:在classpath中寻找path: 直接从本地文件系统中查找我们可以通过addResource()方法为Configuration添加资源。值得注意的是,Hadoop在默认情况下在classpath中按次序指定读取以下两个文件:core...原创 2011-08-04 14:11:08 · 274 阅读 · 0 评论 -
Partitioner, SortComparator and GroupingComparator in Hadoop
hadoop 0.20.2 api里面,作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法:job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(Raw...原创 2011-12-12 14:15:05 · 145 阅读 · 0 评论 -
hadoop乱码
文件存入hadoop出现乱码,尤其是在windows下的cygwin环境测试时候 囧 建议使用如下配置,而不是去改hadoop源码: hadoop-env.shexport HADOOP_OPTS="-server -Dfile.encoding=utf-8 -Duser.language=zh" mapred-site.xml<property>...原创 2011-12-12 14:36:02 · 158 阅读 · 0 评论 -
hadoop的一个恶心错误
今早机器被网管重启了,启动hadoop发现节点都启动不了slave一直是 not available yet,Zzzzz... 看了一下master的端口 netstat - lpnt发现9000端口的IP是127.0.0.1 然后把master的/etc/hosts文件里的127.0.0.1删掉以后,重启集群就正常了。。。 有些版本的linux重启机器后会在/et...原创 2011-09-02 10:17:37 · 122 阅读 · 0 评论 -
进程间通信IPC、LPC、RPC
进程间通信(IPC,Inter-Process Communication),指至少两个进程或线程间传送数据或信号的一些技术或方法。进程是计算机系统分配资源的最小单位。每个进程都有自己的一部分独立的系统资源,彼此是隔离的。为了能使不同的进程互相访问资源并进行协调工作,才有了进程间通信。这些进程可以运行在同一计算机上或网络连接的不同计算机上。 进程间通信技术包括消息传递、同步、共享内存和远程...原创 2011-09-06 11:20:28 · 102 阅读 · 0 评论 -
启动hadoop后没有datanodes的问题
ubuntu10.10每次开机后会在/etc/hosts自动生成一行代码:127.0.0.1 localhost localhost.local,而ubuntu10.04版本则不会。在hadoop中,由于127.0.0.1与主机绑定,导致datanode一直试图链接namenode而连接不上,只要开机后把/etc/hosts 下的127.0.0.1 localhost localhost.loca...原创 2011-04-13 21:22:00 · 660 阅读 · 0 评论 -
hadoop问题汇总
1.系统时钟。zookeeper会根据系统时钟判断两台机器多久没有连接了。所以各系统时钟不能相差太大。最好写个脚本专门同步系统时间。见到一台更变态的机器。两个时钟同步以后,过一段时间时钟又不同步了。 解决办法:使用NTP服务器定时同步各系统时钟。...原创 2011-11-02 09:39:20 · 87 阅读 · 0 评论 -
MapReduce名词解释
在网上收集了一些mapreduce中常用的一些名词的解释,分享一下:Shuffle(洗牌):当第一个map任务完成后,节点可能还要继续执行更多的map 任务,但这时候也开始把map任务的中间输出交换到需要它们的 reducer那里去,这个移动map输出到 reducer 的过程叫做shuffle。 Partition:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集...原创 2011-11-08 10:23:24 · 281 阅读 · 0 评论 -
读hadoop0.23源码(1):Job
每次配置job的时候,最后一步总是 System.exit(job.waitForCompletion(true) ? 0 : 1); 进入waitForCompletion方法 public boolean waitForCompletion(boolean verbose ) throws IOExce...原创 2011-11-23 10:47:59 · 151 阅读 · 0 评论 -
Apache Hadoop 0.23 HDFS Federation介绍
HDFS Federation 为了水平扩展命名服务的规模,federation 使用多个Namenode和命名空间代替过去的单个Namenode的模式。多个Namenode被联合在一起提供服务,但是每个Namenode又是独立的,且每个Namenode不需要与其他Namenode协调工作。而Datenode的存储方式还是和过去一样使用块来存储,但每个Datenode需要注册到集群中...原创 2011-12-04 23:31:30 · 139 阅读 · 0 评论 -
Apache Hadoop 0.23 MapReduce 2.0 (MRv2 or YARN) 介绍
MapReduce 在hadoop 0.23版本中经历了一次大修改。现在叫做MapReduce 2.0 (MRv2) 或者 YARN。JobTracker在MRv2 中被拆分成了两个主要的功能使用守护进程执行:资源管理和任务的调度与监视。这个想法创建一个全局的资源管理(global ResourceManager (RM))和为每个应用创建一个应用管理(ApplicationMaster (A...原创 2011-12-05 15:27:14 · 132 阅读 · 0 评论 -
HDFS Federation设计动机与基本原理
HDFS Federation是Hadoop最新发布版本Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS创建多个namespace以提高集群的扩展性和隔离性。本篇文章主要介绍了HDFS Federation的设计动机和基本原理。1. 当前HDFS概况1.1 当前HDFS架构当前HDFS包含两层结构:(1) Namespa...原创 2011-12-06 10:50:08 · 343 阅读 · 0 评论 -
《hadoop》权威指南 MapReduce
为什么最佳分片的大小与块大小相同? 它是最大的可保证存储在单个节点上的数据量。如果分区跨越两个快,那么对于任何一个HDFS节点而言,基本不可能同时存储这两块数据,因此此分布的某部分必须通过网络传输到节点,这与使用本地数据运行map任务相比,显然效率更低。 map任务把输入写入本地磁盘,而不是HDFS。因为map的输出作为中间输出:而中间输出则被reduce任务处理后产生最...原创 2010-10-26 14:10:50 · 117 阅读 · 0 评论 -
《hadoop权威指南》第二章的例子(修改已可用)
额,我看了一下1990年气象数据的格式,已经和书上有很大出入了,新的数据已经格式化了,后面附件里有,我用的时候把第一行的名称都删掉了。而且也不是int的了,我用的是double MaxTemperatureMapper package com.eryk.hadoop.weather;import java.io.IOException;import org.a...原创 2010-10-26 11:05:35 · 166 阅读 · 0 评论 -
Hadoop组成简介
Hadoop是Apache的一个项目(它是包含了很多子项目的集合,见下图),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS.HBase是Hadoop的其中一个子项目,它...原创 2010-10-25 17:40:22 · 115 阅读 · 0 评论 -
hadoop inputformat
作业的输入InputFormat 为Map/Reduce作业描述输入的细节规范。Map/Reduce框架根据作业的InputFormat来:检查作业输入的有效性。把输入文件切分成多个逻辑InputSplit实例, 并把每一实例分别分发给一个 Mapper。提供RecordReader的实现,这个RecordReader从逻辑InputSplit中获得输入记录, 这些记...原创 2011-07-01 10:09:19 · 161 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,LongWr...原创 2011-07-01 11:02:49 · 80 阅读 · 0 评论 -
自定义hadoop map/reduce输入文件切割InputFormat
hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类进行实现的。 那么,FileInpu...原创 2011-07-01 11:17:27 · 122 阅读 · 0 评论 -
hadoop0.18.3 到 0.20.2
以前用的是0.18.3,现在改用0.20.2,結果发现mapreduce的接口变了好多,而《mapreduce 权威指南》这本书上还是0.18.3的接口 ,这里记录一下今天下午的探索: 最大的变化是作業配置那部分,新的版本里面不再使用JobConf, 而是使用了Job,这里的Job继承自JobContext,它集成了JobConf 。Job里面还是用了相同的设置inputPath, o...原创 2011-07-01 13:10:46 · 73 阅读 · 0 评论 -
Changes of Hadoop 0.20笔记
最近学习hadoop 0.20.1,网上找到一篇文章《What’s New in Hadoop Core 0.20 》,非完整的给翻译了一下,为以后检索方便,发上来保存一份。如果能读懂英文的,千万不要看下面的中文。 Hadoop Core 0.20.0在2009年4月22日发布。这一发布相对0.19发布,有很多用户使用层面上的改变。Core Hadoop中两个主要的组件是分布式文...原创 2011-07-01 13:21:04 · 74 阅读 · 0 评论 -
hadoop hdfs的一些用法
Example 3-1. Displaying files from a Hadoop filesystem on standard output using a URLStreamHandler Java代码 //Reading Data from a Hadoop URL public class URLCat { static { ...原创 2011-07-04 09:25:34 · 111 阅读 · 0 评论 -
Hadoop传递参数的方法总结
写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几种。最直接的方式就是使用Configuration的各种set方法,对于基本数据类型都有很好的支持,比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数?话说所有的对象都是由基本类型构建的,所以我们可以覆盖这个对象的toS...原创 2011-07-07 14:39:07 · 95 阅读 · 0 评论 -
hadoop/mapred 优化方法
从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别. 一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.tasks.maximum,mapred.tasktrack...原创 2011-07-14 08:30:30 · 78 阅读 · 0 评论 -
hadoop错误:"failed to report status for 600 seconds"
<property> <name>mapred.task.timeout</name> <value>600000</value> <description>The number of milliseconds before a task will be terminated if it neit...原创 2011-07-19 14:39:58 · 123 阅读 · 0 评论 -
Hadoop为什么处理小数据量时效果不好
As a rule of , each file, directory, and block takes about 150 bytes. So, for example,if you had one million files, each taking one block, you would need at least300 MB of memory.原创 2010-10-25 10:35:42 · 149 阅读 · 0 评论 -
hadoop常见配置含义备忘录
列了很多配置的参数 其中红色的配置为必须配置参数 参数取值备注fs.default.nameNameNode 的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制许可的datanode列表。dfs.replication默认: 3...原创 2010-10-25 10:42:04 · 74 阅读 · 0 评论 -
hadoop执行stop-all.sh的时候总是出现 “no namenode to stop”
目前的解决的办法 1、先把服务都停掉 $ bin/stop-all.sh2、格式化namenode $ bin/hadoop namenode -format 3、重新启动所有服务 $ bin/start-dfs.sh 4、可以进行正常操作了 原因还不明白,学习中。。。 问题是出在我每次start-all 后,关机就直接关机了,没有先执行...原创 2010-10-25 13:39:59 · 518 阅读 · 0 评论 -
hadoop 遇到一个任务失败的错误
10/10/25 16:45:39 INFO mapred.JobClient: map 92% reduce 30%10/10/25 16:45:44 INFO mapred.JobClient: Task Id : attempt_201010251638_0003_m_000013_1, Status : FAILEDjava.io.IOException: Cannot o...原创 2010-10-25 16:49:02 · 223 阅读 · 0 评论 -
apache hadoop 2
apache hadoop 2.x 是在1.x版本上做了重大的改进。以下是一个关于HDFS和MapReduce的简短的改进概述。 HDFS Federation 为了提升name service 的水平扩展性,federation使用多个独立的Namenodes/Namespaces。Namenodes独立运行且不需要与其他namenode协作运行。datanodes为所有na...原创 2012-06-14 00:54:06 · 137 阅读 · 0 评论