同步hive数据仓库数据到Elasticsearch的工具

地址: https://github.com/TQCCC/hive_to_es

同步hive数据到Elasticsearch的工具

可选 全量(默认) 和 增量;
同时支持编写SQL产生中间结果表,再导入到ES;

已经支持从impala渠道导数据,极大提升导数据速度

采用分页查询机制,数据集过多时不会撑爆内存;

我实习期的公司的数据分析、产品、运营经常需要看各种报表,多是分析统计类需求,Elasticsearch适合做统计分析,结合Kibana可以直接生成报表!
对这类常有的统计类需求,我的通常做法是从hive数据仓库导数据表到ES,或者先用HQL或ImpalaSQL筛选出结果表,ES拿到数据再进行聚合统计,如(Date Histogram)每天、每周、每月、某人的数据。

kibana再生成各类可视化图表,最终数据直观展现!

*Elastic官方已经有了Hive integration的同步工具,但是由于使用的hive版本太低,ES又已经是最新版本,
尝试使用hive integration时一直报错,为尽快适应当前需求手动造了该轮子。*

力求简洁的配置,方便使用。


脚本使用说明

环境: Python2 Python3
命令 #python hive_to_es.py config=<配置文件路径>

配置文件使用说明&

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值