hive表增量更新到elasticsearch方案

最新推荐文章于 2024-08-11 12:20:59 发布

CaptainDing

最新推荐文章于 2024-08-11 12:20:59 发布

阅读量924

点赞数

分类专栏： Hive elasticsearch(ES) shell

本文链接：https://blog.csdn.net/u012061196/article/details/106259545

版权

本文介绍了一种针对大数据量Hive表的增量更新到Elasticsearch的解决方案，以减轻ES集群压力。主要思路是通过主键变化识别增量数据，并利用SQL的JOIN操作找到增删记录。在Elasticsearch中，通过添加is_valid字段标记数据状态，确保数据同步的准确性。

摘要由CSDN通过智能技术生成

1. 背景

hive表中有大量的业务数据，数据量比加大几千万上亿的量级，业务数据每天会有一部分数据发生变化。如果是每天全量更新到elasticsearch，会造成es集群节点的jvm压力巨大，影响es集群的可用性。所以，需要增量更新数据，降低es集群压力。

2. 总体思路

首先需要，定义一个主键，当内容变化时对应的主键也发生变化，当数据没有发生变化时，主键保持不变。（主键可以通过md5生产唯一主键）。通过sql的中的加减法（left、right join）来找出每天需要增量删除和增量增加的数据。然后同步到es时，在额外增加一个字段(当前实现增加的是 is_valid 字段，见下面sql, is_valid=0表示无效数据，is_valid=1表示有效数据)，该字段是一个标志位，标识同步到es的数据是是否可以业务使用。

3. sql

（1）增量删除的数据

#!/bin/sh
version_now=$(date -d"-2 day" +%Y-%m-%d)
version_pre=$(date -d"-3 day" +%Y-%m-%d)

hive -e "DROP TABLE IF EXISTS app.tmp_xz_jimi3_sku_description_delete"

hive -e "

CREATE TABLE app.tmp_xz_jimi3_sku_description_delete AS
SELECT
	main_id,
	item_sku,
	item_main_sku,
	a.bot_id,
	vender_id,
	category3,
	category3_id,
	entity_type,
	entity_value,
	entity_source,
	brand_code,
	brand_en,
	is_valid,
	version
FROM
	(
		SELECT
			tmp_pre.main_id,
			item_sku,
			item_main_sku,
			bot_id,
			vender_id,
			category3,
			category3_id,
			entity_type,
			entity_value,
			entity_source,
			brand_code,
			brand_en