hadoop
文章平均质量分 57
yibei8811
这个作者很懒,什么都没留下…
展开
-
hadoop之单机模式
先介绍下hadoop有3种搭建模式单机模式伪分布式模式完全分布式模式 现在做个简单的单机模式搭建,单机模式的搭建,主要用于调试方便吧。首先需要配置JAVA_HOME下载JDK1.7以上。/etc/profile中加上export JAVA_HOME=xxx可以下载hadoop了,执行wget http://mirror.bit.edu.cn/原创 2015-07-01 13:41:43 · 378 阅读 · 0 评论 -
zookeeper的坑(一)
都说zookeeper是保证顺序,但是保证啥顺序?博文http://blog.csdn.net/kobejayandy/article/details/12432137中有句话【但ZooKeeper保证了一个顺序:一个客户端在收到watch事件之前,一定不会看到它设置过watch的值的变动】是不是只保证了这个顺序,这个顺序又该如何理解?以前一会以为watcher是有序的,今天无意发原创 2016-04-14 16:18:14 · 1767 阅读 · 0 评论 -
hadoop之IOUtils是否需要关闭流?
很久没写blog,有很多值得写的地方。慢慢补。Hadoop中有个常用的方法org.apache.hadoop.io.IOUtils.copyBytes(InputStream in, OutputStream out, int buffSize),用于将本地文件上传至hdfs。入参数in和out用完后是否需要关闭流呢?显而易见的是流用完后需要关闭,但是经验告诉我,每次写mapreduce,原创 2016-03-06 16:53:38 · 5995 阅读 · 0 评论 -
hadoop之yarn Protocol Buffers
我学习使用的hadoop源码是2.2版本,里面有一个相关Protocol Buffers的Jar包叫protobuf-java-2.5.0.jar。使用protobuf生成的java类会import protobuf-java-2.5.0.jar中的类。所以Jar包的版本和protoc.exe版本必须一致。可以去https://github.com/google/protobuf/rele原创 2015-10-07 21:15:01 · 570 阅读 · 0 评论 -
hadoop之yarn状态机模型
状态机一般和事件驱动结合在一起用的,我们继续上一篇的例子。1.定时task的任务状态package com.eg2;public enum TaskStateInternal { RUN, END}2.定义状态机package com.eg2;import java.util.concurrent.locks.Lock;import java.util.concur原创 2015-10-07 17:45:30 · 1061 阅读 · 0 评论 -
hadoop之yarn事件驱动模型
YRAN编程有很多地方采用了事件驱动模型,把代码简化,方便理解它。1.定义一个事件:import org.apache.hadoop.yarn.event.AbstractEvent;public class TaskEvent extends AbstractEvent { private String taskID; public TaskEvent(Strin原创 2015-10-06 18:30:57 · 818 阅读 · 0 评论 -
hadoop之MapReduce调用R的一次失败的总结~(续三)
路还在前进。虽然后台错误如故,其实还是有些惊喜的。我HBASE导入数据的时候弄错了一个参数,导致实际导入量为原来的1/1500。我想说的是,我最初升级HBASE版本的时候是以为成功了。因为我在表数据量很小的时候,执行程序(Scan 全表)后台是没有“断开的管道”之类错误的。而恢复之前数据量的表的时候,执行程序(Scan 全表)后错误又回来了。难道这个错误和表的数据量有关?原创 2015-07-22 16:44:13 · 745 阅读 · 0 评论 -
hadoop之MapReduce调用R的一次失败的总结~(续一)
问题原因虽没有追溯到,但有可以去避免它的发生!所以我改写了同事的MapReduce,严格控制Map的数量!下面贴上代码。package mytest;import java.io.IOException;import java.net.URI;import java.text.SimpleDateFormat;import java.util.Date;import org.原创 2015-07-17 14:03:53 · 496 阅读 · 0 评论 -
Hadoop之谈谈HBase
HBase的Region三层定位第一层:-ROOT- 表包含.META.表所有Region的列表。第二层:.META.表包含用户表的Region的列表。第三层:用户表的Region的信息。HBase读、写流程HBase读写都要经历三层定位去查找对应的Region。RegionServer的写入WAL,然后写入内存MemStore,如果MemStore满了,会被flu原创 2015-08-10 18:09:04 · 242 阅读 · 0 评论 -
Hadoop之谈谈MapReduce
MapReduce的流程1.Client请求JobTracker,得到分配的JobID。2.JobTracker将作业放入一个作业队列里,根据作业调度器运行作业。文件的划分信息确定总的Map数量。根据主机的数量,内核,内存等信息,确定并行的Map数量。3. Map端suffer将结果传输Reduce端。4.TaskTracker每隔一段时间就会给JobTracker发送一个心跳,报原创 2015-08-10 16:12:27 · 367 阅读 · 0 评论 -
Hadoop之谈谈HDFS
HDFS是一个分布式文件系统,它类似Linux下 Ext2,3,4一样的文件系统。只是它是分布式文件系统,能够容忍故障且不丢失数据。HDFS是一个流式数据访问模式来存储大文件的,什么是流式?流式一般对应下载,就是可以传输过来一点数据,处理一点数据而不用等全部数据下载完。HDFS是一个设计为高延迟,高吞吐的文件系统。HDFS是namenode,datanode的结构。HDFS的数据块原创 2015-08-10 11:25:51 · 370 阅读 · 0 评论 -
hadoop之MapReduce调用R的一次失败的总结~(续五)
前面说过R端抛出异常rhbase:: (IOError) Default TException程序第一次执行MapReduce(6分5秒)的时候是不抛出异常的,本以为第二次执行MapReduce就会抛出,测试情况并不是如此。实测中,如果第2次MapReduce等第一次结束后,立即执行,一段时间后MapReduce才会抛出异常,接着结束。耗时5分5秒,因为异常了所以很快的结束了。原创 2015-07-28 15:32:39 · 1207 阅读 · 2 评论 -
hadoop之hadoop-mapreduce-examples-2.7.0.jar
前2篇blog中测试hadoop代码的时候都用到了这个jar,那么很有必要去分析一下源码。分析源码之前很有必要先写一个wordcount,代码如下package mytest;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;原创 2015-07-06 16:36:30 · 11729 阅读 · 1 评论 -
hbase和R之thirft探究
MR去调用R的时候导致R卡住,最终超时退出。分布式的测试比较痛苦。free检查内容,top检查cpu,iostat检查硬盘,发现都未达到瓶颈,那么问题出在哪里?细细检查代码,一行一行定位,发现根本问题在于thirft。下面摘录一段hbase配置thirft相关的参数hbase.thrift.minWorkerThreadsThe "core size" of the thread原创 2015-07-11 15:27:55 · 912 阅读 · 0 评论 -
hadoop之MapReduce调用R的一次失败的总结~(续四)
有人说需要用hadoop下的jar替换掉hbase下的jar,因想也许是可能的,以前粗略翻看官方文档中,好像并没有明确说要求替换,所以也未处理这块。再次翻阅了一下文档,果然有相关的说法。原创 2015-07-27 15:34:52 · 710 阅读 · 0 评论 -
Hadoop之RHbase的rhbase<hbScannerGetList>:: (IOError) Default TException.
接上篇http://blog.csdn.net/yibei8811/article/details/46842079MapReduce调用R的时候会抛出一些异常,我们需要重现它。Rhbase获取的rows提供了2个方法。一个是get(),一个是close()。测试下close()后,再次查看端口,thirft的连接并未中断。那么它起到了什么作用?可以见下图。>> librar原创 2015-07-12 14:01:04 · 1640 阅读 · 1 评论 -
hbase命令和查看当前连接数
名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'原创 2015-07-09 13:55:18 · 13258 阅读 · 0 评论 -
hadoop之伪分布式
接上篇 http://blog.csdn.net/yibei8811/article/details/46709135配置文件etc/hadoop/core-site.xml:添加 fs.defaultFS hdfs://localhost:9000 --配置hdfs分布式文件系统 配置文件etc/hadoop/hdfs-site.xm原创 2015-07-02 15:52:50 · 408 阅读 · 0 评论 -
zookeeper的坑(二)
接上篇,同样的代码,同样的地方debug。zkCli.sh执行[zk: localhost:2181(CONNECTED) 13] ls /t[][zk: localhost:2181(CONNECTED) 14] create /t/1 "1"Created /t/1[zk: localhost:2181(CONNECTED) 15] create /t/2 "1"原创 2016-04-14 16:35:33 · 1056 阅读 · 0 评论