Flink 读取 Minio 写入 Doris 踩坑记录

最新推荐文章于 2024-05-28 10:26:45 发布

温冰水或是凉白开

最新推荐文章于 2024-05-28 10:26:45 发布

阅读量413

点赞数 1

分类专栏：大数据踩坑传奇_Doris 文章标签： flink 大数据

本文链接：https://blog.csdn.net/qq_43554613/article/details/135021873

版权

5 篇文章 0 订阅

订阅专栏

2023/12/15 菜鸟记录.

场景：Minio上存储了txt文件，需要Flink读取解析，写入Doris表。

背景：Flink版本 1.14.4

Doris版本 1.1.5

采坑1：使用自定义SourceFunction读取Minio数据，使用Flink-Doris-Connector写入Doris。

结果1：写入失败，不报错。因为无界流写入Doris必须开启Batch模式。

但是坑来了，SourceFunction的有界性是写死的，值为无界。所以设置批处理模式后会运行报错：Detected an UNBOUNDED source with the 'execution.runtime-mode' set to 'BATCH.

采坑2：使用自定义SourceFunction读取Minio数据，使用Flink-Mysql-Connector写入Doris。

结果2：写入成功，但是速度太慢。3并行度每秒才写入几十条，设置了批写入提升效果不明显。

采坑3：使用Doris自带的Broker Load导入。

结果3：BrokerLoad功能有限，只能将映射文件中的字段c1到表中的clear_pass，但是不能指定dict_id为定值‘111’.

最终实现：使用Flink-S3-Connector读取Minio数据，使用Flink-Doris-Connector写入Doris。

把Flink官网仔细通读了一遍，发现Flink兼容Minio这样的S3对象存储服务。详见：Amazon S3 | Apache Flink

步骤 1：在flink-conf.yaml配置中添加：(切记s3.endpoint要加http://, 踩过坑。)

s3.access-key: XXXXXXX
s3.secret-key: XXXXXXX
s3.endpoint: http://XXXXXXXXX:XXXX/
s3.path.style.access: true
fs.allowed-fallback-filesystems: s3

步骤 2：下载S3插件，flink-s3-fs-hadoop-(flink版本号).jar

步骤 3：在服务器的 (Flink目录)/plugins/目录下创建目录flink-s3-fs-hadoop，把jar包放进来。不用在pom里引依赖，Flink会默认在plugins/下面找。

步骤 4：重启Flink服务。配置生效，flink-s3-fs-hadoop插件自动载入。

步骤 5：Coding！直接用！

关注

专栏目录