hadoop
lykke2012
这个作者很懒,什么都没留下…
展开
-
博客地址变更
all the guys of visiting the blog : I had changed my blog stie to wordpress ,that is my blog site [url]http://wwangcg.com[/url]thanks everyone that support me at so along time .thank...2013-08-16 10:29:38 · 184 阅读 · 0 评论 -
Hbase几种数据入库(load)方式比较
1. 预先生成HFile入库这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx2. 通过MapReduce入库/* MapReduce 读取hdfs上的文件,以HTable.put(put)的方式在map中完成数据写入,无reduce过程*/import java.io.IOExc...2012-07-17 14:52:48 · 134 阅读 · 0 评论 -
map-reduce编程核心问题
1-How do we break up a large problem into smaller tasks? More specically, how dowe decompose the problem so that the smaller tasks can be executed in parallel?2- How do we assign tasks to ...2012-02-22 13:38:29 · 87 阅读 · 0 评论 -
安装rrdtool时,无法安装cairo
Find 3rd-Party Librarieschecking for cairo_font_options_create in -lcairo... yeschecking cairo.h usability... nochecking cairo.h presence... nochecking for cairo.h... nochecking for pkg-co...2012-02-16 17:57:09 · 462 阅读 · 0 评论 -
INFO org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration
2012-02-15 23:56:39,566 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(192.168.1.10:50010, storageID=DS-1805552415-192.168.1.10-50010-1328076157099, infoPort=50075, ipcPort...2012-02-16 13:18:24 · 523 阅读 · 1 评论 -
hadoop rpc
Hadoop RPC详细分析本帖最后由 hadoopor 于 2009-12-30 15:56 编辑1. 总体结构HadoopRPC逻辑上分成三部分,如上图所示。1.1. RPC InterfaceRPC对外接口。1.2. RPC ServerRPC服务端的实现。1.3. RPC ClientRPC客户端的实现。1.4. RPC Interf...2012-02-15 18:28:47 · 62 阅读 · 0 评论 -
NTP 同步集群时间
NTP(Network Time Protocol)是由美国德拉瓦大学的David L. Mills教授于1985年提出,除了可以估算封包在网络上的往返延迟外,还可独立地估算计算机时钟偏差,从而实现在网络上的高精准度计算机校时,它是设计用来在Internet上使不同的机器能维持相同时间的一种通讯协定。时间服务器(time server)是利用NTP的一种服务器,通过它可以使网络中的机器维持...2012-02-15 10:49:46 · 82 阅读 · 0 评论 -
"DataXceiver: java.io.IOException: Connection reset by peer" erro
最近在跑mr任务的时候 ,查看datanode节点的log日志,总是会看到这个错误,仔细的查了下发现有人提过这个bug,如下:When a client reads data using read(), it closes the sockets after it is done. Often it might not read till the end of a block. The d...2012-02-15 09:58:31 · 214 阅读 · 0 评论 -
[Hadoop] “Too many fetch-failures” or “reducer stucks” issue
I post the solution here to help any ‘Hadoopers’ that have the same problem. This issue had been asked a lot on Hadoop mailing list but no answer was given so far.After installing Hadoop cluster and...2012-02-15 09:17:18 · 98 阅读 · 0 评论 -
hadoop hdfs balance
转载:http://hi.baidu.com/hovlj_1130/blog/item/20200da530603af99052eed9.htmlhadoop hdfs balance最近集群的某些dump节点容量报警,hadoop dfsadmin -report可以发现,报警的节点,均为日志上传至hdfs的节点,在hadoop fs -put时,大部分hdfs文件都直接保存...2012-02-14 13:12:26 · 144 阅读 · 0 评论 -
hadoop metrics 各参数解释
hadoop metrics 各参数解释研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。dfs.datanode.blockChecksumOp_avg_time 块校验平均时间dfs.datanode.blockChecksumOp_num_ops ...2012-07-17 18:59:24 · 257 阅读 · 0 评论 -
MapReduce中Mapper类和Reducer类4函数解析
MapReduce中Mapper类和Reducer类4函数解析Mapper类4个函数的解析protected void setup(Mapper.Context context) throws IOException,InterruptedException //Called once at the beginning of the taskprotected void clean...2012-07-20 18:05:55 · 462 阅读 · 0 评论 -
hadoop 源码分析(一) jobClient 提交到JobTracker
Hadoop 用了2年多了.从最初一起创业的11人20台服务器集群到后来独立搭建基于hadoop nutch的搜索引擎并商用化 到现在也2年了.这两年来应用了很多新技术也经历了很多,从数据仓库的Hive pig 到mapreduce的编码去解决算法或是etl的问题 等等都离不开hadoop.觉得用了2年多也到了该总结的时候了.故此想重新翻译hadoop 源码,按照不同的类方法的不...原创 2013-03-26 13:41:49 · 149 阅读 · 0 评论 -
RHadoop 安装教程
RHadoop 环境安装硬件: [code="java"] centos6 16G memory [/code]软件: [code="java"] RJSONIO digest functional stringr[/code]==上面软件直接 install.package(' package name') 既可直接安装...原创 2013-02-01 17:18:07 · 176 阅读 · 0 评论 -
pig
转自:http://www.hadoopor.com/thread-236-1-1.htmlPig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是...2012-11-16 19:28:35 · 93 阅读 · 0 评论 -
hadoop与hive的映射
hadoop与hive的映射 hadoop代码转向hive代码说到,很多MR任务可以由hive完成。这几天,作了一些简单的汇总:1、文件切割(多输入多输出) 需求:数据LOG包含多种信息,需要将不同的数据信息重定向到不同的文件。 hadoop:MultipleInputs、multipleoutputs两个类主要负责多输入多输出的处理...2012-11-15 10:21:55 · 415 阅读 · 0 评论 -
hadoop distcp
hadoop distcp使用:distcp src dst1.要求两个集群有相同的用户名,且此用户的密码也相同2.配置/etc/hosts,使两个集群的每个结点都包含所有其它机器的主机名到ip的对应信息3.如果两个集群用户不一样,则可以在一个集群上新建用户,与创建第一个hadoop用户一样:(1)创建用户举例:groupadd hadoopuseradd -g ...2012-07-31 10:00:19 · 334 阅读 · 0 评论 -
hadoop 源码分析(六)hadoop taskTracker 生成map 和reduce任务流程
taskTracker 生成map reduce 任务详解 1. 启动 TaskTracker ,执行main方法 new TaskTracker(conf) 启动taskTracker2. taskTrack 构造方法初始化变量 mapred.tasktracker.map.tasks.maximum taskTracker 可launch 的最大map数 默认是2 mapr...2013-04-09 17:36:47 · 158 阅读 · 0 评论 -
hadoop 源码分析(五)hadoop 任务调度TaskScheduler
hadoop mapreduce 之所有能够实现job的运行,以及将job分配到不同datanode 上的map和reduce task 是由TaskSchduler 完成的.TaskScheduler mapreduce的任务调度器类,当jobClient 提交一个job 给JobTracker 的时候.JobTracker 接受taskTracker 的心跳.心跳信息含有空闲的slo...2013-04-01 11:07:09 · 205 阅读 · 0 评论 -
hadoop 源码分析(四)JobTracker 添加job 到schduler 队列中
[b]启动 JobTracker [/b]1. 进入main方法: [code="java"] //执行startTracker 方法 JobTracker tracker = startTracker(new JobConf()); //执行offerService()方法 tracker.offerService();[/code]...2013-03-29 18:37:15 · 94 阅读 · 0 评论 -
hadoop 源码分析(三) hadoop RPC 机制
Hadoop 通信机制采用自己编写的RPC. 相比于其他复杂的rpc框架着实清爽了许多.rpc在hadoop中扮演的角色是通信和数据传输在client和server端,以及datanode和namenode 心跳数据以及jobTracker 和taskTracker 通信 1. Client 与 server 端通信采用Writable 序列化形式.因此hadoop中信息的...2013-03-28 15:13:39 · 107 阅读 · 0 评论 -
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
1.JobClient 客户端类 通过调用 JobSubmissionProtocol 接口 的 submit 方法提交作业2. JobSubmissionProtocol 接口为 JobClient 和JobTracker 共同执行的接口,因此它是一个可代理的接口3. 调用 createRPCProxy() 通过远程RPC 调用实现动态代理 JobTracker 类的 submit...2013-03-27 12:57:17 · 195 阅读 · 0 评论 -
hadoop 添加删除datanode及tasktracker
hadoop 添加删除datanode及tasktracker 首先:建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。1、删除datanode修改namenode上的hdfs-site.xml[code="java"...2012-02-14 12:51:56 · 135 阅读 · 0 评论 -
hbase 安装
hbase 安装 版本:hbase-0.20.61.操作系统 suse 11.42.hadoop版本 hadoop-0.20.23.环境 jdk1.6, server0 192.168.1.10 server1 192.168.1.11 server2 192.168.1.12 server3 192.168.1.13 ...2011-12-05 15:14:51 · 89 阅读 · 0 评论 -
解决zookeeper linux下无法启动的问题
在linux下安装zookeeper时,出现了如下的错误:[hadoop@hadoop-master bin]$ ./zkServer.sh start JMX disabled by user request Using config: /opt/zookeeper-3.3.3/bin/../conf/zoo.cfg Starting zookeeper ... ...2011-12-05 14:20:44 · 938 阅读 · 0 评论 -
hadoop 内存错误
hadoop 内存给定错误 11/09/06 09:20:25 WARN mapred.JobClient: Error reading task outputhttp://server4:50060/tasklog?plaintext=true&taskid=attempt_201109060853_0005_r_000008_0&filter=stdout11/09...2011-09-06 09:58:35 · 105 阅读 · 0 评论 -
hadoop 性能调优
hadoop 性能调优 环境: 4台suse 各 4G 内存 1T硬盘 4核cpu 3台 redhat 各 2G内存 500G 硬盘 双核cpu由于没有真正意义上的服务器,所以当运行大量map reduce任务的时候 map 运行速度还可以接受 但reduce 速度 特别慢,所以开发 对集群进行调优。 hadoop集群调优分两个方面,map和reduce ma...2011-09-03 17:31:28 · 95 阅读 · 0 评论 -
hadoop IO(一)
1.数据完整性: 在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的 通道进行传输时再次计算校验和,如果所得 的 校验和和原来的校验和一致则代表数据完整2.HDFS数据完整性 hdfs 对写入 的数据计算校验和,在读取数据时验证校验和。 io.bytes.per.checksum 指定校验和的数据字节大小 默认512字节 datanode验证收到的数据...2011-08-31 22:52:09 · 69 阅读 · 0 评论 -
HDFS学习(二)
HDFS 数据流:1.文件读取: 客户端通过调用FileSystem 对象的open()方法来打开希望读取的文件,对于hdfs来说,这个对象是分布式文件系统的一个实例。 DistributedFileSystem 通过rpc来调用namenode,以确定文件起始块的位置,对于每一个块,namenode返回存有该块副本的 datanode地址。datanode根据他们与客户端的...2011-08-30 21:26:32 · 233 阅读 · 0 评论 -
hdfs 学习(一)
HDFS概念:1.数据块:每个磁盘都有默认的数据块的大小,这是磁盘进行读写的最小单位。构建与单个磁盘上的文件系统通过磁盘块来管理该文 件系统中的块,该文件系统块的大小可以是磁盘块的整数倍 HDFS也有块的概念,默认为64M,与单一磁盘上的文件系统相似,HDFS上的文件也被划分为块的大小的多个分块,作为独 立的存储单元,但是HDF...2011-08-29 23:41:15 · 102 阅读 · 0 评论 -
hbase
hbase 理解1.简介: HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群2.HBase和RDBMS的关系 RDBMS(Relation DabaBase Management System-关系数据库):由关系模型构成的数据库就是关系数据库。关系数 ...2011-08-23 23:05:16 · 99 阅读 · 0 评论 -
nutch1.3 +hadoop 分布式部署(亲测)
nutch1.3 +hadoop 分布式部署(亲测)1.确保hadoop正常启动2.下载nutch1.3 安装包 解压到指定路径3.抓取 nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf runtime/local/conf 为 local(本地抓取的配置文件所用) NU...2011-08-22 16:46:43 · 123 阅读 · 0 评论 -
hadoop 基本文件操作命令
1.将本地文件拷贝到 hdfs 文件系统中 bin/hadoop fs -copyFromLocal /server/bin/nutch/urls/url.txt urls2.将hdfs中的文件拷贝到本地路径 bin/hadoop fs -copyToLocal urls(hdfs文件) /opt/index (本地路径)2.查看hdfs文件系统内文件列表...2011-08-18 16:01:04 · 137 阅读 · 0 评论 -
hadoop 可能遇到的错误
1.question 2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s). 2011-08-15 13:07:42,558 INFO org.ap...2011-08-18 15:50:04 · 542 阅读 · 0 评论 -
hadoop SecondaryNameNode 配置
hadoop SecondaryNameNode 配置 昨天遇到一个问题,hadoop集群跑着的时候突然间 停止了 namenode 也没有down掉,也没有任何错误.jvm直接跳出了,我怀疑是 内存的问题 suo所以想把SecondaryNameNode 移到其他的机器上去、下面这两句话是 亮点:将所有想要运行secondarynamenode进程的机器写到mas...2011-10-12 15:54:39 · 424 阅读 · 0 评论 -
Bad connect ack with firstBadLink 192.168.1.14:50010
Exception in thread "main" java.io.IOException: Bad connect ack with firstBadLink 192.168.1.14:50010 at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.createBlockOutputStream(DFSClient.ja...2011-12-22 11:17:24 · 270 阅读 · 0 评论 -
Stopping at depth=1 - no more URLs to fetch.
Hadoop集群时间不统一导致Nutch无法正常运行 抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况转自:http://liuskysun.blog.163.com/blog...2011-12-23 12:33:21 · 166 阅读 · 0 评论 -
错误:hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException:
hadoop 运行任务的时候突然报错:java.io.IOException: Bad connect ack with firstBadLink 192.168.1.11:50010 at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.createBlockOutputStream(DFSClient.java:2903) at...2011-11-24 09:25:27 · 480 阅读 · 0 评论 -
hadoop 报错:could only be replicated to 0 nodes, instead of 1
could only be replicated to 0 nodes, instead of 1hadoop 运行任务一段时间报这个错误解决方法:删除tmp 文件重启集群(采用下面的方法)bin/hadoop-daemon.sh start namenodebin/hadoop-daemon.sh start datanodebin/start-m...2011-11-22 09:33:39 · 89 阅读 · 0 评论 -
Hadoop客户端环境配置
Hadoop客户端环境配置1. 安装客户端(通过端用户可以方便的和集群交互)2. 修改客户端~/.bashrcalias hadoop='/home/work/hadoop/client/hadoop-client/hadoop/bin/hadoop' #hadoop 可执行文件位置alias hls='hadoop fs -ls' alias hlsr='hadoop f...2012-05-11 14:59:31 · 762 阅读 · 0 评论