Hbase
tom_fans
这个作者很懒,什么都没留下…
展开
-
Hue 查询kerberos HBase: failed authentication to hbase
CDH集群并开启了kerberos,最近要打开Hue查询HBASE的功能,打开之后发现HUE右上角报错:failed authentication to hbase. 查询hue管理界面检查配置发现hbase browser错误之类的。参考网上,基本没有任何一篇文章给出完全正确或者清晰的答案,都是涉及了一部分。 因此做个记录:通过CM修改配置如下:1.hbase.regionse...原创 2020-03-17 13:23:39 · 830 阅读 · 1 评论 -
HBase 监控及优化
最近有一些时间,一直在想,如果有几百台甚至上千台Hadoop集群,需要怎么来监控? 监控的意义是为了了解整个集群的状态是否良好,以便考虑是否需要扩容,配置是否需要调整等等。但是如果几百台上千台集群,即使我们有监控,怎么能够快速了解集群状态呢? 以下我自己根据我自己一些经验来谈谈,我们拿HBASE来做例子,之前我写了几篇对HBASE内部分析的文章,但只涉及部分HBASE的东西,希望今天能更全面一点。...原创 2018-03-23 15:40:57 · 1530 阅读 · 0 评论 -
HBASE同步数据到SOLR
HBase Indexer, 又名key value store indexer, 解析HBASE的日志,生成SOLR语法并插入,简单理解就是HBASE的数据同步到SOLR。为什么会有这个东西的存在? HBASE不支持事务,也就意味着不支持二级索引,但是在实际的工作当中会发现二级索引的使用非常重要,查询如果光从rowkey来考虑设计,很难,或者说做不到,因此二级索引的组件就产生了。有一个项目,我们原创 2018-01-19 10:52:45 · 3569 阅读 · 0 评论 -
ERROR: No server address listed in hbase:meta for region test1,,1517390330801.40ff7bbead5f57620c4ef2
ERROR: No server address listed in hbase:meta for region test1,,1517390330801.40ff7bbead5f57620c4ef2126403a109. containing row上面是HBASE查询表的一个错误。业务逻辑很简单,每天通过SQOOP抽取数据到HBASE,建立HIVE关联表,通过SPARK SQL关联查询,然原创 2018-01-31 18:01:59 · 7152 阅读 · 3 评论 -
Spark处理时间序列数据
整个逻辑为: 设备端毫秒级生成数据以文本方式传输到HDFS,然后通过SPARK解析文件并存储到HBASE中。问题1:SPARK本身为分布式,如果通过分布式解析文件并存储,如何保证数据系列顺序?问题2:使用SPARK进行HBASE插入的时候,使用RddPartitionForeach,然后给每条记录生成时间戳,并插入到HBASE,发现即使是微妙级别,在foreach的时候仍然会出现时间相同的原创 2018-01-15 17:45:51 · 5088 阅读 · 0 评论 -
hadoop资源隔离
资源隔离目前有2种,静态隔离和动态隔离。所谓静态隔离是以服务隔离,是通过cgroups(LINUX control groups) 功能来支持的。比如HADOOP服务包含HDFS, HBASE, YARN等等,那么我们固定的设置比例,HDFS:20%, HBASE:40%, YARN:40%, 系统会帮我们根据整个集群的CPU,内存,IO数量来分割资源,先提一下,IO是无法分割的,所以只能说当原创 2017-09-29 17:04:09 · 2352 阅读 · 0 评论 -
Hbase常用参数
hbase.client.write.buffer 写入是BUFFER大小,默认2M,一般2-5M左右,插入时先插入缓存即表示完成,明显速度比不使用缓存要快hbase.master.handler.count Master RPC数量hbase.regionserver.global.memstore.upperLimit, 默认0.4表示memstore最多使用原创 2017-07-02 17:39:31 · 340 阅读 · 0 评论 -
Hbase Endpoint Coprocessor
Endpoint Coprocessor比observer Coprocessor要复杂很多,这里不做具体解释了,大家慢慢看代码仔细琢磨。 另外此篇文章代码是从HBASE官方文档拷贝过来的。但是官方文档实际也没有给出很详细的解释。1) 定义proto文件// 定义常用选项option java_package = "com.isesol.mapreduce"; //指定生成J原创 2017-09-26 17:38:54 · 476 阅读 · 0 评论 -
HBase CoProcessor介绍以及使用
HBase协处理器包含 Observer和Endpoint 2部分,分表代表类似数据库的触发器和存储过程。 当你插入,删除前或者后,会触发相应的代码,这个代码是你添加到触发器的。我们先来写一个极其简单的示例,用来快速了解这个东西是啥玩意。需求:我有个test表,我希望每次插入到test表的数据,同步复制一份给test2. package com.isesol.mapredu原创 2017-09-22 17:23:22 · 2411 阅读 · 0 评论 -
Storm-Kafka-Hbase 性能问题
上一篇文章介绍了一下Storm-kafka-hbase整合,虽然不能保证exactly once,但是at least once已经能够满足90%的业务,如果对前2篇内容都已经理解就已经可以为生产环境编写Storm程序了。今天谈论的问题是性能问题,开发最近写了一个程序用来处理kafka数据,然后存储到HBASE,中间的逻辑很简单,kafka的数据是一个json格式数据,通过bolt 解析这个jso原创 2017-07-27 18:02:08 · 3515 阅读 · 1 评论 -
乱七八糟弹HBASE性能
先来看看HBASE整个结构的图形:实际上说,HBASE结构真的不复杂,相比传统的RDBMS来说,应该要简单。 HBASE整个物理层存储其实最后就是HFile,读内存block cache, 写缓存memstore, write buffer,客户端也能缓存rowkey位置信息。客户端写数据先写入 memstore,默认为128M, 整个默认memstore大小为原创 2017-07-04 16:01:41 · 2451 阅读 · 0 评论 -
HBASE性能测试
之前测试过HBASE的参数对性能影响,今天的测试主要针对写吞吐量,通过对比不同客户端的数量,以及插入量,来看看HBASE写的情况下,大概有多少每秒插入。测试硬件:8vcore, 32G内存 , 8台机器, 5个nodemanager/region server ,大家可能知道每个map,reduce 默认1个 vcores,1G内存 很显然,我一共40个vcores, 所以最多也只有39原创 2017-07-02 12:47:06 · 1752 阅读 · 0 评论 -
Hbase compact以及split跟踪
为了准确了解HBASE内部工作原理,我们需要做一些测试,在大量数据插入的情况下,HBASE内部到底有什么表现? 比如插入速度, hstore compact,split等相关活动,了解了这些才能更好的维护HBASE系统本身。此次测试会有几轮,所以测试到哪里就写到哪里,我随便找了一张大概120W来的表,我会写一个mapreduce任务,来读取这张表,再写入另外一个测试表: test2,原创 2017-06-30 10:13:48 · 1931 阅读 · 1 评论 -
Hbase插入参数测试与对比
HBase读写性能和几个参数有密切关系,比如cache和batch会影响读, 而write buffer会影响写,另外除了参数会影响,在程序里怎么处理也极大的影响插入性能,诸如List比一条一条put性能是否要高呢? 网上大部分言论是否正确呢?今天我会通过程序读取HBASE,然后再原封不动的写入另外一张表,对比各个参数的组合对插入的影响。HTable htable1 = new HTabl原创 2017-06-30 17:05:28 · 775 阅读 · 0 评论 -
HBASE Rowkey filter
HBASE通过Rowkey可以直接定位行,速度很快,在filter中,有2个API可以过滤主键:1. RowFilter 行过滤器, 依靠行键来过滤 Scan scan = new Scan(); Filter rowfilter = new RowFilter(CompareOp.EQUAL, new BinaryPrefixComparator(Bytes.原创 2017-06-30 10:14:21 · 1745 阅读 · 0 评论