Hbase
文章平均质量分 85
stevie
坚持自己的梦想。。。
展开
-
Hbase优化之九
HBase性能优化方法总结(二):写表操作写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:static final Configuration conf = HBaseConfiguration.create();static final String table_log_n原创 2014-01-08 16:09:52 · 813 阅读 · 0 评论 -
Hbase优化之十
HBase数据库性能调优(1)因官方Book Performance Tuning部分章节 没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zo原创 2014-01-08 16:10:13 · 771 阅读 · 0 评论 -
Hbase优化之八
HBase性能优化方法总结(一):表的设计表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这原创 2013-12-17 12:18:05 · 768 阅读 · 0 评论 -
Hbase优化之六
hbase优化原文地址:http://blog.csdn.net/chuanzhongdu1/article/details/7287125修改noprc nofileubuntu/etc/security/limits.conf增加username soft noproc 32000username ha原创 2013-12-17 12:16:29 · 851 阅读 · 0 评论 -
Hbase优化之七
[转载]HBase性能优化0转自:http://www.binospace.com/index.php/make-your-hbase-better-2/使用Filter降低客户端压力Hbase是加强版的Mysql,存储容量更大、逻辑形式更加灵活。至于BigTable那篇论文的内容,它的意义在于提供了一种更加灵活地组织数据的形式。Hbase以Di原创 2013-12-17 12:17:05 · 1194 阅读 · 1 评论 -
Hbase优化之五
HBase在淘宝的应用和优化小结 部署、运维和监控 Facebook之前曾经透露过Facebook的HBase架构,可以说是非常不错的。如他们将message服务的HBase集群按用户分为数个集群,每个集群100台服务器,拥有一台namenode以及分为5个机架,每个机架上一台zookeeper。可以说对于大数据量的服务这是一种优良的架构。对于淘宝来说,由于数据量远没有那么转载 2013-12-17 12:16:14 · 867 阅读 · 0 评论 -
HBase性能优化方法总结
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。转载 2014-03-26 09:51:06 · 795 阅读 · 0 评论 -
hive+hbase设计细节
前言 近半年本人主要在倒腾数据,遇到海量数据去重的难题,曾经尝试过各种hivesql,然而随着数据量逐渐增大,处理耗时也越来越长,各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案,随即做了相关预研(参看hive&hbase解决方案测评)。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到:或许我们可以选择数据“冷热”、以及部分字段切表来优化。转载 2014-03-26 09:50:44 · 1935 阅读 · 0 评论 -
hbase MapReduce程序样例入门
1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.class);Sc翻译 2014-03-26 09:49:54 · 723 阅读 · 0 评论 -
hbase 介绍
一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008翻译 2014-03-26 09:49:25 · 654 阅读 · 1 评论 -
Hbase优化之三
hbase参数配置及优化接触hbase已有半年的时间,查了很多资料,也参考了很多别人心得,也希望把自己的心得以及理解写出来,我把配置hbase必调的几个参数写一下,以及它们的意义。zookeeper.session.timeout这个参数的意义是regionserver在zookeeper的会话过期时间,默认是3分钟,如果regionserver 在zookeepe原创 2013-11-28 14:15:26 · 834 阅读 · 0 评论 -
Hbase优化之二
HBase 性能优化笔记1 hbase.hregion.max.filesize应该设置多少合适2 autoflush=false的影响3 从性能的角度谈table中family和qualifier的设置4 hbase.regionserver.handler.count详解1 hbase.hregion.max.filesize应该设置原创 2013-11-28 14:15:07 · 810 阅读 · 0 评论 -
Hbase优化之四
HBase性能优化方法总结(三):读表操作本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:stat原创 2013-11-28 14:17:33 · 981 阅读 · 0 评论 -
hbase之scan的rowkey问题
最近使用到hbase做存储,发现使用scan的时候,返回的rowkey并不是特别友好 例如我insert的rowkey是 xyz_123_abc 调用KeyValue的getKeyString方法返回的String为 Java代码 kv\x00\x0Bxyz_123_abc\x02kvobj\x00\x00\x011\xD7\xB9\xDD\x1原创 2013-07-02 09:10:54 · 3682 阅读 · 0 评论 -
基于HBASE的并行计算架构之rowkey设计篇
1.大数据在HBASE存储、计算以及查询的应用场景 海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统转载 2013-07-02 09:09:14 · 1056 阅读 · 0 评论 -
文本数据导入HBASE
在将有定界符文本文件导入HBASE库中,需要将后面的定界符去掉,否则将导入失败。如下所示:[hadoop@hadoop1 bin]$ cat /tmp/emp.txt1,A,201304,2,B,201305,3,C,201306,4,D,201307,这个文件后面多了一个逗号。[hadoop@hadoop1 bin]$ hadoop fs -p转载 2013-07-10 14:39:42 · 4377 阅读 · 0 评论 -
hadoop+hive+hbase的整合开发(配置加测试)
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.原创 2013-07-08 15:05:33 · 2539 阅读 · 0 评论 -
HBASE SHELL 常用命令
说明:新版hbase取消了对HQL的支持,只能使用shell 命令:disable 'tableName' --disable表。注:修改表结构时,必须要先disable表。命令:enable 'tableName' --使表可用命令:drop 'tableName' --删除表 HBase基本命令下面我们再看看看HBase的一些基本操作命令,我列出了几个常用的原创 2013-07-09 10:20:27 · 854 阅读 · 0 评论 -
Hbase简介之二
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理原创 2013-06-19 09:39:09 · 719 阅读 · 0 评论 -
Hbase简介之一
一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop原创 2013-06-19 09:37:36 · 830 阅读 · 0 评论 -
Hbase安装
集群环境:192.168.11.12 作为hbase主master192.168.11.14 作为hbase备用master 192.168.11.16作为zookeeperNode/HRegionsever192.168.11.18作为zookeeperNode/HRegionsever192.168.11.20作为zookeeperNode/HRegionsever原创 2013-04-01 08:41:08 · 936 阅读 · 0 评论 -
Hbase使用经验
有待修正一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(Bytes.toBytes(“66”));p.add(Bytes.原创 2013-07-02 09:16:36 · 2269 阅读 · 0 评论 -
hbase rowkey 设计(三维有序)
在用hbase的过程中,我们都知道,rowkey设计的好坏,是我们能最大发挥hbase的架构优势,也是我们是否正确理解hbase的一个关键点。闲话少说,进入正题。hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。先 说rowkey,我们知道row原创 2013-07-02 09:12:59 · 1537 阅读 · 0 评论 -
Hbase优化之一
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe原创 2013-10-21 07:48:40 · 748 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码 package com.wujintao.hbas原创 2013-09-11 09:52:20 · 1187 阅读 · 0 评论 -
Hive与Hbase使用域
Hive和Hbase有各自的不同特性:hive是高延迟,结构化和面向分析的,hbase是低延迟,非结构化和面向编程的。hive数据仓库在hadoop上时高延迟的,hive集成hbase就是为了使用hbase的一些特性,hive集成hbase可以有效利用habse数据库的存储特性,如行更新和列索引等,在集成的过程中注意维持hbase jar包的一致性。hive集成hbase需要在hive表和原创 2013-09-11 09:52:00 · 1585 阅读 · 0 评论 -
HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe原创 2013-09-11 09:52:42 · 909 阅读 · 0 评论 -
hbase MapReduce程序样例入门
1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.转载 2013-09-09 15:54:40 · 1126 阅读 · 0 评论 -
HBase MapReduce实例分析之三
跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将介绍HBase下 MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考 "第一个MapReduce应用" 这篇文章来建立基本概念。一、Java代码package hbase;转载 2013-09-09 15:50:53 · 2269 阅读 · 0 评论 -
HBase列族高级配置
HBase有几个高级特性,在你设计表时可以使用。这些特性不一定联系到模式或行键设计,但是它们定义了某些方面的表行为。本节我们讨论这些配置参数,以及你可以如何使用它们。1 可配置的数据块大小HFile数据块大小可以在列族层次设置。这个数据块不同于之前谈到的HDFS数据块。其默认值是65,536字节,或64KB。数据块索引存储每个HFile数据块的起始键。数据块大小设置影响到数据块索引的大小。转载 2013-08-14 14:45:23 · 2056 阅读 · 0 评论 -
HBase MapReduce实例分析
引言跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。HBase转载 2013-07-05 14:21:37 · 1221 阅读 · 0 评论 -
google三宝之BigTable
2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapRed转载 2013-03-29 20:56:05 · 1012 阅读 · 0 评论