HBase + ElasticSearch最佳实践

最新推荐文章于 2024-08-05 14:21:54 发布

qq_18219755

最新推荐文章于 2024-08-05 14:21:54 发布

阅读量2.5k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_18219755/article/details/94733909

版权

大数据专栏收录该内容

41 篇文章 0 订阅

订阅专栏

序言
最近项目组要为客户提供一个基于HBase和ElasticSearch的大数据存储搜索解决方案，提供HBase + ElasticSearch的标准解决方案样例，包括数据写入以及查询。以下简称ES。

需求分析
HBase的查询实现只提供两种方式：
1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get）
2、按指定的条件获取一批记录，scan方法（org.apache.hadoop.hbase.client.Scan）
用好HBase的第一步是要将rowkey设计好。大数据量查询最好从rowkey入手，ColumnValueFilter的速度是很慢的，HBase查询速度还是要依靠rowkey，所以根据业务逻辑把rowkey设计好，之后所有的查询都通过rowkey，是会非常快。批量查询最好是用 scan的startkey endkey来做查询条件。
HBase在0.92之后引入了coprocessors，提供了一系列的钩子，让我们能够轻易实现访问控制和二级索引的特性。
当前平台内没有对HBase + ES的解决方案，需要给出一个能够指导用户使用HBase和ES组件的解决方案。
目前可能的需求场景如下：

批量索引：HBase上已有大量数据，需要在ES上建立索引；
增量索引：HBase上已有大量数据，提供HBase的rowkey，实现对ES的增量索引；
实时索引：HBase表持续进入数据，该表的数据要与ES的索引实时更新；
FI支持安全模式和普通模式，读取模式配置参数，安全模式则采用认证方式，普通模式则不需要认证。

方案前提
已经成功安装FI的HBase和ES组件，安全模式或者普通模式均可，安全模式就比普通模式多了认证而已，其余功能保持一致。

解决方案
HBase的工具HBase-SEP可以监测行变化事件
方案1：
如果是对写入数据性能要求高的业务场景，那么一份数据先写到HBase,然后再写到ES中，两个写入流程独立，这样可以达到性能最大，目前某公安厅使用该方案，每天需要写入数据200亿，6T数据，每个记录建20左右的索引。
缺点：可能存在数据的不一致性。

方案2：
这也是目前网上比较流行的方案，使用HBase的协处理监听数据在HBase中的变动，实时的更新ES中的索引，
缺点：协处理器会影响HBase的性能

由于山不清楚添加协处理器具体思路是把RowKey作为索引文档的ID，并把要进行查询的Column索引到ES。
用户输入Column值作为搜索条件，通过ES查询到该Column对应的RowKey值，再根据RowKey到HBase中查询完整的数据。

问题局限
这个方案目前有哪些问题或者局限？

结语
Reference
HBase建立二级索引的一些解决方案
HBase数据同步到ElasticSearch的方案
通过HBase Observer同步数据到ElasticSearch
使用Hbase协作器(Coprocessor)同步数据到ElasticSearch
HBase 2.0 协处理器实现 ES 数据同步
HBase的工具HBase-SEP可以监测行变化事件
ES+Hbase对接方案概述
Elasticsearch对Hbase中的数据建索引实现海量数据快速查询
Elasticsearch+Hbase实现海量数据秒回查询
Hbase多列范围查找（效率）