使用waterdrop将Hive中的数据导入ClickHouse

最新推荐文章于 2024-06-27 09:00:00 发布

颍天

最新推荐文章于 2024-06-27 09:00:00 发布

阅读量2.3k

点赞数 1

分类专栏： clickhouse 文章标签：数据库大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anyitian/article/details/115461346

版权

本文介绍了如何利用Waterdrop将Hive中的大数据高效地导入ClickHouse，包括waterdrop的环境准备、下载安装、配置修改以及遇到的问题与解决方案，特别强调了在处理大量数据时避免使用CSV导出导入的方式。

摘要由CSDN通过智能技术生成

文章目录

前言
waterdrop
hive2clickhouse

前言

最近有一个需求需要把hive的数据同步到clickhouse，而且数据量还比较大，所以使用导出csv再导入clickhouse的那种方式并不适合。由于公司使用的服务器是某云服务器，Hadoop的底层不是使用的是原生的hdfs，导致没法使用datax。

waterdrop

waterdrop的官方地址：https://interestinglab.github.io/waterdrop-docs/#/zh-cn/v1/

Waterdrop 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。

1）准备环境

使用 Waterdrop前请先准备好Spark和Java运行环境。java版本为jdk1.8

2）waterdrop下载和解压

下载地址：https://github.com/InterestingLab/waterdrop/releases
目前1.x的稳定版为v1.5.1。spark >= 2.3 下载 waterdrop-1.5.1.zip, spark < 2.3 下载waterdrop-1.5.1-with-spark.zip。
如果Github下载速度慢，可通过百度云(链接:https://pan.baidu.com/s/19GUwZPC2YBG9Pt7iuF9TNw 密码:upeb) 直接下载。

解压：unzip waterdrop-1.5.1.zip

3）更改启动目录

cd到waterdrop的config目录下，找到waterdrop-env.sh并打开，找到如果spark_home没有配置环境变量，需要把spark_home改了，如果配置有环境变量就不用管。

hive2clickhouse

1）通用配置

一个完整的Waterdrop配置包含spark, input, filter, output, 即：

spark {
   
    ...
}

input {

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
使用waterdrop将Hive中的数据导入ClickHouse

文章目录前言waterdrop1）准备环境2）waterdrop下载和解压3）更改启动目录hive2clickhouse1）通用配置2）编写脚本3）部署和运行前言最近有一个需求需要把hive的数据同步到clickhouse，而且数据量还比较大，所以使用导出csv再导入clickhouse的那种方式并不适合。由于公司使用的服务器是某云服务器，Hadoop的底层不是使用的是原生的hdfs，导致没法使用datax。waterdropwaterdrop的官方地址：https://interestinglab
复制链接

扫一扫

专栏目录

颍天 CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

10万+: 周排名

194万+: 总排名

14万+: 访问

: 等级

783: 积分

22: 粉丝

59: 获赞

33: 评论

282: 收藏

私信

关注

热门文章

分类专栏

hive 9篇
clickhouse 17篇
linux 3篇
impala 3篇
flink 12篇
waterdrop 5篇
spark 2篇
nc
davanci 1篇
hadoop 3篇
go 1篇

最新评论

ClickHouse连接超时的解决方法
踩坑又填坑: 这么多种方式，那优先用url 上的配置还是properties 中的配置的呢？
clickhouse删除表的问题
颍天: 路径是在zk中，配置是在ck中，其实最简单的办法就是使用uniq zk路径
clickhouse删除表的问题
Seventeen's love: 这个配置是在zookeeper中吗
clickhouse删除表的问题
you are my soul mate: 这个是表引擎，作者说的是数据库引擎默认Atomic，应该在建库的时候指定普通数据库引擎，这样复制表删除后可以立马重建
clickhouse删除表的问题
De_arning: 感觉不太清楚，ENGINE = ReplicatedMergeTree 这个引擎和默认引擎什么关系，这个是默认的原子引擎么？还是说必须设置了ENGINE = Ordinary才能使用普通数据库？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。