hbase 导入到es_HBase 实现数据同步 ElasticSearch

最新推荐文章于 2024-07-03 19:54:43 发布

weixin_39726044

最新推荐文章于 2024-07-03 19:54:43 发布

阅读量952

点赞数

文章标签： hbase 导入到es

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39726044/article/details/111821745

版权

本文介绍了如何利用HBase的Coprocessor和Elasticsearch（ES）的BulkProcessor实现数据同步，以解决HBase查询功能的局限性。通过在HBase上设置Coprocessor监听数据变化，结合BulkProcessor批量处理ES索引，确保在不增加复杂性的同时提升性能。文章还提到在生产环境中遇到的jar包管理和版本控制问题，以及调试与测试的挑战。

摘要由CSDN通过智能技术生成

HBase 作为 NoSQL 或列式数据库，虽然解决了海量数据存储需求，但查询满足非常有限。因为访问 HBase 表中的行，只有三种方式：通过单个RowKey

通过RowKey的range(最好是前缀扫描)

全表扫描

如何实现 HBase 的复杂查询，有一些方案：借助 Phoenix，他会给 HBase，做了个映射，生成二级索引，同时支持 SQL，可实现一些不太复杂的查询，我觉得更适用于离线数据分析的场景。参见《Phoenix 安装与使用》

借助 HBase Indexer，Cloudera 平台默认集成，实际上就是把 HBase 数据同步到 Solr 进行索引，配置很繁琐，并且 Solr 的分布式感觉很蛋疼(除了那个admin ui还凑活)。参见《HBase Indexer 整合 Solr》

所以，HBase 还是让它好好的干存储的事情吧，检索的事情交给搜索来做，通过对比 Solr 和 ES，无疑 ES 使用起来更爽一些。那么同步方案呢？

方案客户端双写

数据可能不同步？面对高并发的写入场景，HBase能扛住，ES能否扛住？双写之前再搞个消息队列？ES 从 HBase 拉数据

(类似 MySQL + Solr 的增量索引)，如何增量，其实就是根据监控一个 update_time 来实现，问题也不少，比如不好监控删除的数据，并且 HBase 只有一个 Rowkey，貌似搞不了HBase 入库后同步到 ES

如何实现？还要考虑 ES 的索引性能。

最终发现 H

最低0.47元/天解锁文章

weixin_39726044

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hbase 导入到es_HBase 实现数据同步 ElasticSearch

HBase 作为 NoSQL 或列式数据库，虽然解决了海量数据存储需求，但查询满足非常有限。因为访问 HBase 表中的行，只有三种方式：通过单个RowKey通过RowKey的range(最好是前缀扫描)全表扫描如何实现 HBase 的复杂查询，有一些方案：借助 Phoenix，他会给 HBase，做了个映射，生成二级索引，同时支持 SQL，可实现一些不太复杂的查询，我觉得更适用于离线数据分析的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。