waterdrop
七年·
这个作者很懒,什么都没留下…
展开
-
waterdrop导出hdfs数据到clickhouse(text,csv,json)
首先用hive创建表(这里是为了生成hdfs文件方便,实际hive表导出应该是整合spark直接写sql导出): CREATE TABLE test.hdfs2ch2( id int, name string, create_time timestamp); insert into hdfs2ch2 values(1,'zhangsan',' 2020-01-01 01:01:01.000001'); insert into hdf原创 2020-10-20 23:58:56 · 1759 阅读 · 1 评论 -
waterdrop配置多数据源与多输出
我有两个数据源分别是es与kudu 输出到clickhouse不同的表spark { #程序名称 spark.app.name = "Waterdrop" #executor的数量(数据量大可以适当增大) spark.executor.instances = 1 #每个excutor核数(并行度,数据量大可以适当增大到服务器核数一半以下,尽量不要影响clickhouse) spark.executor.cores = 1 #每个excutor内存(不能小于512m) s...原创 2020-09-23 15:42:47 · 1041 阅读 · 1 评论 -
waterdrop 配置文件传参
waterdrop应用提交命令./bin/start-waterdrop.sh --master yarn --deploy-mode client --config ./config/test.conf如果我们通过azkaban调度,可能会有大量的waterdrop配置文件,但是有很多参数是放在azkaban的配置文件之中,所以我们需要把azkaban的配置文件中的参数传递到waterdrop的conf文件中.first.jobtype=commandcommand=echo "sta原创 2020-09-23 14:19:34 · 1407 阅读 · 0 评论 -
WaterDrop的使用
支持多种数据源与输出数据输入形式有两种:一种是批,一种是流(分别对应sparksql中的一次性读取,与structruedstreaming的流式处理)批处理有(start-waterdrop.sh):ElasticSearch File Hdfs Hive Hbase JDBC Kudu MongDB Mysql等(Hbase为商业版,普通版需要实现可以使用Hive映射HBase表的方式)流式处理有(start-waterdrop-structured-streaming.s...原创 2020-09-18 18:24:39 · 10508 阅读 · 0 评论 -
WaterDrop下载与安装
简介WaterDrop是一款数据同步/ETL工具,其底层是通过用户编写的配置文件转化执行spark代码.所以必须要spark2.x以上的环境.(类似于sqoop必须Mr)WaterDropV2同时支持Spark与flink支持多种数据源与输出数据输入有两种一种是批一种是流(分别对应sparksql中的一次性读取,与structruedstreaming的流式处理)批处理有:ElasticSearch File Hdfs Hive Hbase JDBC Kudu MongDB...原创 2020-09-18 15:38:01 · 6984 阅读 · 0 评论