Elasticsearch数据全量导入HBase，scroll的正确使用姿势，HBase数据到Hive

最新推荐文章于 2023-02-21 17:38:47 发布

haixwang

最新推荐文章于 2023-02-21 17:38:47 发布

阅读量2.8k

点赞数

分类专栏： Hadoop、Spark、Hbase... ELK Stack进阶项目实践 ELK Stack 文章标签： elasitcsearch hbase hbase数据到hive es数据到HBase

本文链接：https://blog.csdn.net/haixwang/article/details/81749738

版权

本文详细介绍了如何使用Elasticsearch的scroll API进行全量数据导入到HBase，以及如何将HBase数据整合到Hive。在实践中，讨论了数据获取、封装和批量写入的步骤，同时分享了解决Mac hosts文件自动恢复问题的方法。此外，还提出了数据通信中的挑战和优化方案，如采用异步处理。

摘要由CSDN通过智能技术生成

1、代码

相关文章：
elasticsearch数据到hive、es-hadoop6.3.0
Hbase Java API简单实践（附源代码解释）
按照惯例，先上代码
（代码还有很多可以优化的地方，待正式工作了，有了更海量的需要处理的数据，更复杂的应用场景，我再回来更新此文。）

只贴出Es用scroll方式读取数据以及批量写入HBase的核心代码，其他工具类、方法，比如es、HBase配置、client、connection获取就不贴了。

1-1、es获取数据

package ipl.restapi.service.bigdata.es;

import ipl.restapi.util.EsOpenCloseUtils;
import ipl.restapi.util.EsPropertiesUtils;
import ipl.restapi.util.HbaseApiUtils;
import org.apache.hadoop.hbase.client.Connection;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.Client;
import org.elasticsearch.client.transport.TransportClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.search.SearchHits;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;

/**
 * <p>pakage: ipl.restapi.service.bigdata.es</p>
 * 
 * descirption: es检索某一所以全量数据，导入HBase
 *
 * @author wanghai
 * @version V1.0
 * @since <pre>2018/8/15 下午9:03</pre>
 */
public class ReadFromEs {
   
    private static final Logger LOGGER = LoggerFactory.getLogger("es");
    private static final int SCROLL_SIZE = 10000;
    private static final int