![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
hbase
hbase
꧁꫞ND꫞꧂
每一天都值得期待与认证对待
展开
-
Presto一个处理秒级查询的框架类似Impala
Impala只用于hive,稍领先于Presto,但是presto在数据源的支持上非常丰富,有hive,redis,tushujuku,图数据库、redis、关系型数据库。Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。presto的架构由关系型数据库的架构演化而来。presto之所以能在各个内存计算型数据库中脱颖而出,在于以下几点:清晰的架构,是一个能够独立运行的系统,不依赖于任何其他外部系统。例如调度,presto自身提供了对集群的监控,原创 2020-07-21 21:59:53 · 753 阅读 · 0 评论 -
Hbase性能优化
近期在处理HBase的业务方面常常遇到各种瓶颈,一天大概一亿条数据,在HBase性能调优方面进行相关配置和调优后取得了一定的成效,于是,特此在这里总结了一下关于HBase全面的配置,主要参考我的另外两篇文章:(1)http://blog.csdn.net/u014297175/article/details/47975875(2)http://blog.csdn.net/u014297175/article/details/47976909在其基础上总结出来的性能优化方法。1.垃圾回收优化转载 2020-10-28 11:10:35 · 1080 阅读 · 0 评论 -
Flink 读取hdfs数据和hbase数据对比
摘要:小数据量就没必要使用这些比较重的插件或者开源框架,反而拖慢速度。直接读取hdfs反而会快些的,然后就是使用过滤的时候,hbase本身的escan是比数据读取后在flink层面做过滤要快的。1000W数据量在HBASE和hdfs上的对比,在flink per-job的模式下如下:在yarn session上会快一些,是因为有些数据第二次跑的时候会缓存。一、flink读取Hbase主要过滤的部分val FAMILY = Bytes.toBytes("info") // hbas..原创 2020-09-11 14:15:08 · 1092 阅读 · 0 评论 -
FlinkSQL读取Hbase数据
概述最近项目中用到flink进行实时计算,流程为从kafka读取数据,如果是维度数据,则插入到hbase中,如果是需要实时计算的数据,则进行实时计算,并将计算结果保存到MySQL中。在实时计算过程中,可能会用到hbase中的维度数据,为了开发的效率,使用flink-sql的方式实现。flink-sql是在flink流式计算的基础上进行了高度抽象,使开发过程更简单,更有效率,但要理解sql执行背后的原理还是需要仔细学习flink流式计算的相关内容。本文主要以flink-sql实现相关功能。假设需转载 2020-08-06 14:55:24 · 6898 阅读 · 1 评论 -
Hbase 连接的几种方式
1. HBase连接的方式概况主要分为:纯JavaAPI读写HBase的方式; Spark读写HBase的方式; Flink读写HBase的方式; HBase通过Phoenix读写的方式;第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成HBase的方式,最后一种是第三方插件Phoenix集成的JDBC方式,Phoenix集成的JDBC操作方式也能在Spark、Flink中调用。注意:这里我们使用HBase2.1.2版本,flin.转载 2020-07-29 10:24:16 · 5170 阅读 · 0 评论 -
akka.pattern.AskTimeoutException: Ask timed out on
连接Hbase的时候,如果报错了,看看是否是连接方式的问题,我们自己使用的时候,刚开始报错的是类找不到,是部门自己重构了Hbase的核心代码,导致的,替换后报错如下:最后是因为本地的host没有修改映射,导致连不上Hbase服务器。增加映射即可Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka://flink/user/dispatcher#-1558269177]] after [10000 ms].原创 2020-07-22 09:58:25 · 1687 阅读 · 0 评论 -
Hbase过滤器FilterList中的AND和OR的整合
HBase 内置过滤器可以分为三类:分别是比较过滤器,专用过滤器和包装过滤器。但是我要介绍一下这个Filterlist:如果有多个过滤条件需要我们做筛选,可以使用功能filterlist将他们组装到一起。当然,Hbase大数据情况下还是尽量做好rowkey的设计,少的加入这么多过滤。比如:select * from table a left join b on a.id=b.id where a.id=1 and a.name="lisan" and (a.age>15 or b.age &.原创 2020-07-14 10:43:39 · 1396 阅读 · 4 评论 -
HBase 过滤器详解
一、HBase过滤器简介Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down)。这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传输和客户端处理的压力。二、过滤器基础2.1 Filter接口和FilterBase抽象类Filter 接口中定义了过滤器的基本方法,FilterBase 抽象类实现了 Filter 接口。...转载 2020-07-14 09:07:14 · 515 阅读 · 0 评论 -
Hbase数据过滤器之SingleColumnValueFilter
当我们使用Flink获取hbase数据的时候,要想使用Hbase实现快速查询的功能,还能有过滤的作用,这时候就需要加入过滤器了,但是多个过滤器之前的使用需要一些注意,百度真的是坑,都是复制的,以下就是SingleColumnValueFilter 需要注意的一些点。1.我们如果有多个值过滤,可以将每个过滤器加入到FilterList 里面,然后再scan.setFilter(list);2.注意的细节就是我们使用的每个过滤器里的字段必须要加入到扫描的列值中,scan.addColumn(FAMIL.原创 2020-07-10 09:28:56 · 3574 阅读 · 3 评论 -
Hbase入库的一些问题
hbase一般的插入过程都使用HTable对象,将数据封装在Put对象中,Put在new创建的时候需要传入rowkey,并将列族,列名,列值add进去。然后HTable调用put方法,通过rpc请求提交到Regionserver端。写入的方式可以分为以下几种: 单条put 批量put 使用Mapreduce bluckload 进行批量入库之前,首先要连接到正确的连接到hbasestatic{conf=HBaseConfiguration.create(.转载 2020-05-15 11:52:39 · 589 阅读 · 0 评论 -
Hbase集群状况监控
hbck监控集群状况hbase hbck是hbase自带的一项肥肠实用的工具,很多hbase中出现的问题都可以尝试用hbase hbck修复。新版本的hbck从 hdfs目录、META、RegionServer这三处获得region的Table和Region的相关信息,根据这些信息判断并尝试进行repair。新版本的 hbck 可以修复各种错误,修复选项是:(请注意选项后面是否需要加具体...原创 2020-04-28 10:54:10 · 502 阅读 · 0 评论 -
FuzzyRowFilter官网才是最好的学习地方
org.apache.hadoop.hbase.filterClass FuzzyRowFilterjava.lang.Object org.apache.hadoop.hbase.filter.Filter org.apache.hadoop.hbase.filter.FilterBase org.apache.hadoop.hbase.filter.Fuzz...原创 2019-11-21 17:59:01 · 731 阅读 · 0 评论 -
Hbase之布隆过滤器
今天让我们来瞅瞅布隆过滤器到底是如何实现的。大概了解,要想知道深入的算法推导请略过在hbase中,我们可以通过rowkey将查询的某个值定位到一个具体的region,但是每个store里面是保存了很多的storefile的,我们难道要一个一个的去查询他是保存到那个storefile里面的么,当然不是。这里呢,对应的每个storefile都有一个布隆过滤器,它为我们提供了一个反向索引机制,会告诉...原创 2019-11-17 17:09:20 · 328 阅读 · 0 评论 -
Hbase在大数据生态中的位置
提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce,可以理解为一种计算框架。而 HDFS,我们可以认为是为计算框架服务的存储层。因此不管是 Spark 还是 MapReduce,都需要使用 HDFS 作为默认的持久化存储层。那么 HBase 又是什么,可以用在哪里,解决什么样的问题?简单...原创 2019-11-06 20:06:49 · 623 阅读 · 1 评论 -
Hbase性能调优
一、服务端调优1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.h...转载 2019-08-13 11:45:35 · 240 阅读 · 0 评论 -
HBase快照(Snapshot)技术
什么是快照快照就是一份元信息的合集,允许管理员恢复到表的先前状态。快照不是表的复制而是一个文件名称列表,因而不会复制数据。完全快照恢复是指恢复到之前的“表结构”以及当时的数据,快照之后发生的数据不会恢复。快照的作用HBase中存在的备份或克隆表的方法就是使用复制/导出表或者在关闭表之后拷贝HDFS中的所有HFile。复制或导出是通过一系列工具调用MapReduce来扫描并复制表,这...原创 2019-04-22 15:20:04 · 724 阅读 · 0 评论