HBase
文章平均质量分 72
艾伦蓝
Just do it
展开
-
Hadoop HBase入门学习
[size=x-large][b]HBase是什么? [/b][/size]HBase是Apache Hadoop中的一个子项目,[color=red][b]Hbase依托于Hadoop的HDFS作为最基本存储基础单元[/b][/color],通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作。HBas...原创 2017-03-21 11:05:04 · 112 阅读 · 0 评论 -
Hadoop HBase操作数据学习(shell和api)
原创 2017-03-21 11:25:37 · 111 阅读 · 0 评论 -
Hadoop hbase-site.xml 参数收藏学习
x-large][color=red][b]hbase.rootdir[/b][/color][/size]这个目录是region server的共享目录,用来持久化HBase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000/hbase。默认情况下HBase是写到/tmp的。不改这个配置,数原创 2017-03-21 14:36:33 · 76 阅读 · 0 评论 -
Hadoop HBase完全分布式集群搭建(1.2.5)
[/code][color=red][b]1、安装Zookeeper集群[/b][/color]2、hbase-env.sh中指定JAVA_HOME、使用外部zookper集群如下配置:[code="sh"]#指定jdk安装目录export JAVA_HOME=/usr/java/jdk1.7.0_55#指明HBase不需要管理zookeeper因为zookeeper有自己的集群export HBASE_MANAGES_ZK=false[/code][原创 2017-03-21 16:04:43 · 86 阅读 · 0 评论 -
Hadoop HBase存储原理结构学习
e Hbase2008.1 Hadoop become Apache top-level project and Hbase becomes subproject2008.10 Hbase 0.18,0.19 released [b]hbase是bigtable的开源山寨版本。[/b][color=red][b]是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。[/b][/color]它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的原创 2017-03-22 10:01:45 · 144 阅读 · 0 评论 -
Hadoop MapReduce将HDFS文本数据导入HBase
个Mapreduce作业将数据导入HBase[/b][/color][/size][size=medium][color=blue][b]2.另一种方式就是使用HBase原生Client API[/b][/color][/size]本文就是示范如何通过MapReduce作业从一个文件读取数据并写入到HBase中。首先启动Hadoop与HBase,然后创建一个空表,用于后面导入数据:[code="command"]hbase(main):006:0> cr原创 2017-03-24 11:13:31 · 90 阅读 · 0 评论 -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
原创 2017-03-24 15:37:57 · 137 阅读 · 0 评论 -
Hadoop HBase性能优化学习
htable = new HTable(config, tablename); htable.setWriteBufferSize(6 * 1024 * 1024); htable.setAutoFlush(false);[/code] 设置buffer的容量,例子中设置了6MB的buffer容量。[color=red][b]* 必须禁止auto flush。[/b][/color][color=blue][b]* 6MB是经验值,可以上下微调以适应不同的写场景。[/b][/c原创 2017-05-12 09:15:10 · 106 阅读 · 0 评论 -
Hadoop HBase中Compaction原理学习
保证读性能。[/b][/color]RegionServer后台有一组负责flush region的线程(MemStoreFlusher),每次从flushQueue中拿出一个flush region请求,[color=red][b]会检查这个region是否有某个store包含的storefile个数超过配置hbase.hstore.blockingStoreFiles,默认7[/b][/color],如果超过,说明storefile个数已经到了会影响读性能的地步,那么就看这个flush re原创 2017-05-12 10:34:01 · 132 阅读 · 0 评论 -
Hadoop HBase中split原理学习
原创 2017-05-12 13:38:55 · 159 阅读 · 0 评论 -
Hadoop HBase行健(rowkey)设计原则学习
e中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:* 通过get方式,指定rowkey获取唯一一条记录* 通过scan方式,设置startRow和stopRow参数进行范围匹配* 全表扫描,即直接扫描整张表中所有行记录[size=large][color=red][b]rowkey长度原则[/b][/color][/size]--------------------------------------rowkey是一个二进制码流,可以是任意字符串,最大原创 2017-05-15 10:34:52 · 341 阅读 · 0 评论 -
Hadoop HBase入门学习
的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作。HBase在产品中还包含了Jetty,[color=red][b]在HBase启动时采用嵌入式的方式来启动Jetty[/b][/color],因此[color=red][b]可以通过web界面对HBase进行管理和查看当前运行的一些状态[/b][/color],非常轻巧。[img]http://dl2.iteye.com/upload/attachment/0123/8373/原创 2017-03-21 11:05:04 · 78 阅读 · 0 评论 -
Hadoop HBase建表时预分区(region)的方法学习
如果知道Hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做的好处是[color=blue][b]防止大数据量插入的热点问题,提高数据插入的效率。[/b][/color][color=red][size=large][b]1.规划hbase预分区[/b][/size][/color]-------------------------首先...原创 2017-05-15 11:18:47 · 1199 阅读 · 0 评论 -
Hadoop HBase操作数据学习(shell和api)
[size=medium][color=red][b]HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩性,另外一方面里用了BigTable的高效数据组织形式。[/b][/color][/size][color=blue][b]可以说HBase为海量数...原创 2017-03-21 11:25:37 · 180 阅读 · 0 评论 -
Hadoop hbase-site.xml 参数收藏学习
该文档是用hbase默认配置文件生成的,文件源是 [color=red][b]hbase-default.xml[/b][/color]。在实际的HBase生产环境中应用于%HBASE_HOME%/conf/hbase-site.xml中。[size=x-large][color=red][b]hbase.rootdir[/b][/color][/size]这个目录是region ...原创 2017-03-21 14:36:33 · 85 阅读 · 0 评论 -
Hadoop HBase完全分布式集群搭建(1.2.5)
[size=x-large][color=red][b]HBase集群搭建之前必须搭建好Hadoop和Zookeeper[/b][/color][/size][color=red][b]机组情况[/b][/color][code="txt"]master:HMasterslave03:HRegionServer[/code][color=red][b]1、安装Zookeep...原创 2017-03-21 16:04:43 · 136 阅读 · 0 评论 -
Hadoop HBase存储原理结构学习
[size=x-large][b]一、简介[/b][/size]historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase...原创 2017-03-22 10:01:45 · 102 阅读 · 0 评论 -
Hadoop MapReduce将HDFS文本数据导入HBase
[color=red][b]HBase本身提供了很多种数据导入的方式[/b][/color],通常有两种常用方式:[size=medium][color=red][b]1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase[/b][/color][/size][size=medium][color=blue][b]2.另一种...原创 2017-03-24 11:13:31 · 229 阅读 · 0 评论 -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
Hbase里的数据量一般都小不了,[color=red][b]因此MapReduce跟Hbase就成了天然的好搭档。[/b][/color][size=large][color=red][b]1.ZK授权表[/b][/color][/size]首先一点来说,[color=red][b]Hbase是强依赖于ZK的。[/b][/color]博主所在的team,就经常出现ZK连接数太多被...原创 2017-03-24 15:37:57 · 215 阅读 · 0 评论 -
Hadoop HBase性能优化学习
[size=large]一、调整参数[/size]入门级的调优可以从调整参数开始。投入小,回报快。 [color=red][b]1. Write Buffer Size[/b][/color]快速配置[code="java"]HTable htable = new HTable(config, tablename); htable.setWriteBufferSiz...原创 2017-05-12 09:15:10 · 104 阅读 · 0 评论 -
Hadoop HBase中Compaction原理学习
[size=large][b]HBase Compaction策略[/b][/size]RegionServer这种类LSM存储引擎需要[color=red][b]不断的进行Compaction来减少磁盘上数据文件的个数和删除无用的数据从而保证读性能。[/b][/color]RegionServer后台有一组负责flush region的线程(MemStoreFlusher),每次从f...原创 2017-05-12 10:34:01 · 212 阅读 · 0 评论 -
Hadoop HBase中split原理学习
在Hbase中split是一个很重要的功能,[b]Hbase是通过把数据分配到一定数量的region来达到负载均衡的。[/b]一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。[b]在自动split策略中,当一个region达到一定的大小就会自动split成两个region。[/b]table在region中是按照row key来排...原创 2017-05-12 13:38:55 · 287 阅读 · 0 评论 -
Hadoop HBase行健(rowkey)设计原则学习
Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:* 通过get方式,指定rowkey获取唯一一条记录* 通过scan方式,设置startRow...原创 2017-05-15 10:34:52 · 431 阅读 · 0 评论 -
Hadoop HBase建表时预分区(region)的方法学习
原创 2017-05-15 11:18:47 · 154 阅读 · 0 评论