如何快速地把HDFS中的数据导入Clickhouse

最新推荐文章于 2024-07-16 22:39:54 发布

置顶

Gary的影响力

最新推荐文章于 2024-07-16 22:39:54 发布

阅读量4.6k

点赞数 1

分类专栏：大数据文章标签： waterdrop spark clickhouse spark-streaming

本文链接：https://blog.csdn.net/gaoyingju/article/details/83900747

版权

如何快速地把HDFS中的数据导入Clickhouse

ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前日数据量达到了300亿。

之前介绍的有关数据处理入库的经验都是基于实时数据流，数据存储在Kafka中，我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickHouse中，这样可以实现数据的快速接入。然而在很多同学的使用场景中，数据都不是实时的，可能需要将HDFS或者是Hive中的数据导入ClickHouse。有的同学通过编写Spark程序来实现数据的导入，那么是否有更简单、高效的方法呢。

目前开源社区上有一款工具Waterdrop，项目地址https://github.com/InterestingLab/waterdrop，可以快速地将HDFS中的数据导入ClickHouse。

HDFS to ClickHouse

假设我们的日志存储在HDFS中，我们需要将日志进行解析并筛选出我们关心的字段，将对应的字段写入ClickHouse的表中。

Log Sample

我们在HDFS中存储的日志格式如下，是很常见的Nginx日志

10.41.1.28 github.com 114.250.140.241 0.001s "127.0.0.1:80" [26/Oct/2018:03:09:32 +0800] "GET /InterestingLab/waterdrop HTTP/1.1" 200 0 "-" - "Dalvik/2.1.0 (Linux; U; Android 7.1.1; OPPO R11 Build/NMF26X)" "196" "-" "mainpage" "443" "-" "172.16.181.129"

ClickHouse Schema

我们的ClickHouse建表语句如下，我们的表按日进行分区

CREATE TABLE cms.cms_msg
(
    date Date, 
    datetime DateTime, 
    url String, 
    request_time Float32, 
    status String, 
    hostname String, 
    domain String, 
    remote_addr String, 
    data_size Int32, 
    pool String
) ENGINE = MergeTree PARTITION BY date ORDER BY date SETTINGS index_granularity = 16384

最低0.47元/天解锁文章

Gary的影响力

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何快速地把HDFS中的数据导入Clickhouse

如何快速地把HDFS中的数据导入ClickhouseClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前日数据量达到了300亿。之前介绍的有关数据处理入库的经验都是基于实时数据流，数据存储在Kafka中，我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickHo...
复制链接

扫一扫

专栏目录