hbase
mllhxn
这个作者很懒,什么都没留下…
展开
-
hbase 优化(配置优化)
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServ转载 2014-10-15 22:24:49 · 427 阅读 · 0 评论 -
HBase API 实战
BulkLoad package com.chinahadoop.testbasicapi; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.原创 2015-09-22 22:28:41 · 528 阅读 · 0 评论 -
Hive与Hbase 整合
问题 1,创建带分区CREATE TABLE hbase_table_2(key int, value string) PARTITIONED BY (date String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WIT原创 2016-02-24 15:56:29 · 761 阅读 · 0 评论 -
hbase 列族优化 ,shell 管理集群
数据块大小的配置: 数据块越小,索引越大,占用内存也越大,加载进内存的数据小,查找性能更好 更好的顺序扫描,需要更大的数据块 create "stu",{NAME => "cf",BLOCKSIZE =>"65536"} 数据块缓存的配置: 如果经常顺序访问或很少被访问,可以关闭列族的缓存,列族缓存默认打开 create "stu",{NAME => "cf",BLOC原创 2015-08-04 00:09:47 · 525 阅读 · 0 评论 -
对HBase中Bloomfilter类型的设置及使用的理解
转:http://zjushch.iteye.com/blog/1530143 1.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读(G转载 2016-07-12 23:58:40 · 1701 阅读 · 0 评论 -
Hbase 日常运维
1.1监控Hbase运行状况 1.1.1操作系统 1.1.1.1IO a.群集网络IO,磁盘IO,HDFS IO IO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。 2.正在执行mapreduce作业 可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据: b.Io wait 磁盘IO对集群的原创 2016-07-13 00:16:34 · 3597 阅读 · 2 评论 -
Region拆分策略
Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成。对象层级图如下: Table (HBase table) Region (Regions for the table) Store (Store per ColumnFamily for each Region for the t转载 2016-06-17 15:19:16 · 1277 阅读 · 0 评论 -
使用Phoenix通过sql语句更新操作hbase数据
转:https://segmentfault.com/a/1190000002936080 hbase 提供很方便的shell脚本,可以对数据表进行 CURD 操作,但是毕竟是有一定的学习成本的,基本上对于开发来讲,sql 语句都是看家本领,那么,有没有一种方法可以把 sql 语句转换成 hbase的原生API呢? 这样就可以通过普通平常的 sql 来对hbase 进行数据的管理转载 2016-07-27 14:42:22 · 3058 阅读 · 1 评论 -
region分裂策略
0.94版本之前 分裂的策略采用ConstantSizeRegionSplitPolicy的,在这个情况下只要将配置文件中的hbase.hregion.max.filesize设置为一个超大值则可以将自动分裂关闭。 0.94版本之后 默认策略是IncreasingToUpperBoundRegionSplitPolicy,这个策略是当在一个RS中同一个表的region数量小于9时,如果storef转载 2016-10-10 17:59:37 · 2025 阅读 · 0 评论 -
spark操作HBASE
转:http://www.cnblogs.com/seaspring/p/5631112.htmlimport org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.hbase.{HColumnDescriptor, HTableDescriptor, TableName, HBaseConfiguration} import org转载 2016-09-26 23:48:32 · 2295 阅读 · 1 评论 -
hbase 配置优化(2)
hbase配置修改: (split是因为hfile过多,进行split,split之后进行compact 可以可能要有人喷了,hfile多了应该compact才对啦。贴出0.98.1的代码,大致逻辑是region没有block的compact(优先级大于等于1的),则进行split) private boolean flushRegion(final FlushRegion转载 2015-10-18 22:12:26 · 658 阅读 · 0 评论 -
hbase meta表修复
meta表修复一 查看hbasemeta情况 hbase hbck 1.重新修复hbase meta表(根据hdfs上的regioninfo文件,生成meta表) hbase hbck -fixMeta 2.重新将hbase meta表分给regionserver(根据meta表,将meta表上的region分给regionservere) hbase hbck -fixAssignments转载 2015-10-18 21:41:40 · 1139 阅读 · 0 评论 -
HBase snapshot分析
HBase以往数据的备份基于distcp或者copyTable等工具,这些备份机制或多或少对当前的online数据读写存在一定的影响,Snapshot提供了一种快速的数据备份方式,无需进行数据copy。 参见下图 Snapshot包括在线和离线的,在线方式, 离线方式是disabletable,由HBase Master遍历HDFS中的table metadata和hfi转载 2014-10-15 22:12:57 · 426 阅读 · 0 评论 -
Hbase filter
Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("col-0")); Filter filter1 = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,转载 2014-10-15 20:23:36 · 547 阅读 · 0 评论 -
hbase 系统结构
HBase 系统架构图 组成部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Client与HRegionServer进行数据读写类操作 Zookeeper: Zookeeper Quorum存储-ROOT-表地址、HMa转载 2014-10-15 22:04:25 · 429 阅读 · 0 评论 -
HBase 预写日志 (WAL)
WAL最重要的作用是灾难恢复,一旦服务器崩溃,通过重放log,我们可以恢复崩溃之前的数据。如果写入WAL失败,整个操作也将认为失败。 图6 WAL 基本流程:首先,客户端初始化一个可能对数据改动的操作,如put(Put),delete(Delete) 和 incrementColumnValue()。这些操作将被封装在一个KeyValue对象实例中,发送给HRegi转载 2014-10-15 22:06:52 · 1909 阅读 · 0 评论 -
MapReduce生成HFile入库到HBase
一、这种方式有很多的优点: 1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。 2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数转载 2014-10-15 22:57:53 · 531 阅读 · 0 评论 -
hbase 备份
1、 replication, 通过类似mysql 主从复制方式进行复制,基于HLog 在应用场景个人感觉比较重要的一点是可以隔离计算分析型的操作和实时性操作带来的影响。 对于DDL操作不做复制,过实时读取hlog中的entry来解析变更的数据然后发送到从集群中去。 2、 distcp, 表数据文件的copy ./hadoopdistcp转载 2014-10-15 22:07:50 · 406 阅读 · 0 评论 -
hbase 优化(性能)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考Hbase性能调优 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大转载 2014-10-15 22:26:03 · 452 阅读 · 0 评论 -
hbase 二级索引实现
问题导读 1.如何建立全局二级索引? 2.如何对一个表建立二级索引? 3.如何卸载二级索引? 环境:hadoop2.2+hbase0.94不过同样应该适用于hadoop2.4及hbase0.985,未测试 二级索引可以对单个表建立索引,也可以全局建立索引,也就是对所有表: 1.全局建立索引,可以修改hbase-site.xml文件转载 2014-10-16 21:26:40 · 1149 阅读 · 0 评论 -
HBase 数据导入
记录一下HBase 0.96.0 利用ImportTsv,completebulkload 和Import导入数据的方法。我的环境里用的是Yarn。 1、利用ImportTsv 将cvs文件导入到HBase 步骤: a. 在hbase里面创建好table: 命令:create 'hbase-tbl-001','cf' b. Upload simple1.转载 2014-10-17 00:36:32 · 534 阅读 · 0 评论 -
hbase 实战case1
-- hbase shell filter -- create 'test1', 'lf', 'sf' -- lf: column family of LONG values (binary value) -- sf: column family of STRING values -- 一个用户(userX),在什么时间原创 2015-08-07 22:16:03 · 570 阅读 · 0 评论