![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
waterdrop
文章平均质量分 62
颍天
路漫漫其修远兮吾将上下而求索
展开
-
Waterdrop FAQ/常见问题
前言由于github老是打不开,转载部分waterdrop常见问题。原文地址:https://github.com/InterestingLab/waterdrop/issues/267waterdrop使用文档地址:https://interestinglab.github.io/waterdrop-docs/#/zh-cn/v1/问题及解决办法以集群模式(cluster)运行waterdrop,提示找不到:plugins.tar.gz使用cluster模式提交前,需要您先执行如下命令:转载 2021-06-03 18:25:06 · 2347 阅读 · 7 评论 -
waterdrop使用cdh的spark2提交任务
有的公司使用的是cdh集群,用waterdrop同步数据的时候会遇到spark版本太低,需要切换到spark2去。特此记录一下切换过程以及遇到的问题。更改waterdrop的bin目录下的start-waterdrop.sh文件,更改spark-submit为spark2-submit更改waterdrop的config目录下的waterdrop-env.sh文件,更改SPARK_HOME的配置。如果环境变量中配置了SPARK_HOME,首先检查环境变量中的SPARK_HOME问题:E原创 2021-06-03 12:23:01 · 482 阅读 · 0 评论 -
spark提交任务报错:java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
官方解释:https://spark.apache.org/docs/latest/hadoop-provided.html从 Spark 1.4 版本开始,该项目打包了“Hadoop free”版本,让您可以更轻松地将单个 Spark 二进制文件连接到任何 Hadoop 版本。要使用这些构建,您需要修改 SPARK_DIST_CLASSPATH 以包含 Hadoop 的包 jar。最方便的方法是在 conf/spark-env.sh 中添加一个条目。现在以hadoop这个命令已经在环境变量中存在的情况原创 2021-06-03 11:16:25 · 1146 阅读 · 0 评论 -
写hive到clickhouse的脚本遇到的问题及解决办法
文章目录背景步骤背景最近有个需求,就是需要把hive的数据导入到clickhouse,目前的做法是先用waterdrop把hive的数据导入clickhouse的本地表中,然后再清洗写入分布式表中。手动处理已经是完全可以的,但是想做成定时调度,但是我们这边的大数据集群和clickhouse是分开的,所以需要远程调用执行clickhouse的命令,下面就是我在写脚本的时候遇到的问题以及解决办法,特此记录一下。步骤waterdrop搭建以及导数据到clickhouse可以参考:https://blog.原创 2021-04-23 10:45:26 · 1220 阅读 · 0 评论 -
waterdrop配置文件动态赋值
文章目录前言解决办法cat EOF前言最近在使用waterdrop读取hive的数据,并写入clickhouse。但是hive是按照天来分区的,所以同步数据的时候需要动态的选择分区。但是waterdrop的配置文件是conf文件,没法动态赋值。特此记录一下这个解决办法。解决办法我们可以使用cat <<!EOF把变量传进去,并且把脚本生成在文件夹中,然后再使用waterdrop的命令调用即可。demo如下:#!/bin/bash# 日期及参数配置输入,默认当天无参数输入if [ $原创 2021-04-22 10:26:54 · 924 阅读 · 0 评论