当使用Flink 获取HDFS上的文件作为表进行计算时报错 file not found。

最新推荐文章于 2023-07-28 16:26:43 发布

青冬

最新推荐文章于 2023-07-28 16:26:43 发布

阅读量1.4k

点赞数 1

分类专栏： Flink 文章标签： flink hdfs kafka

转载必须得到本人许可，未经允许，不得转载

本文链接：https://blog.csdn.net/qq_36610426/article/details/121019991

版权

Flink 专栏收录该内容

14 篇文章 11 订阅

订阅专栏

Flink 定时获取HDFS 上某路径的parquet文件，并作为dim进行关联。

序

在进行Flink 开发的时候，使用的是Flink 1.13.2版本，当前版本对Flink SQL支持已经比较不错了，所以想用纯Flink SQL进行开发。

业务

消费Kafka 中的数据作为主表，获取HDFS路径上的某一个配置dim表进行关联然后输出到Kafka中。

SQL 实现

这里仅仅使用少量的sql做个演示，
创建主表SQL：

CREATE TABLE main_table (
    `length` int, `local_province` int, `local_city` int, `owner_province` int
    ,`event_time` TIMESTAMP(3) METADATA FROM 'timestamp'
    ,WATERMARK FOR event_time AS event_time
) WITH (
    'connector' = 'kafka',
    'property-version' = 'universal',
    'topic' = 'outTopicName',
    'properties.bootstrap.servers' = 'ip:9093,ip:9093',
    'properties.group.id' = 'ourGroupName',
    'format' = 'csv',
    'csv.field-delimiter' = '|',
    'csv.ignore-parse-errors' = 'true'
)
;

创建dim表SQL：

CREATE TABLE `cfg_city`(
    `provincecode` int, `city_id` int, `city_name` string, `province_name` string,
)
WITH (
    'connector'='filesystem',
    'path'='hdfspath://cfg_city',
    'format' = 'csv',
    'csv.field-delimiter' = ',',
    'csv.ignore-parse-errors' = 'true'
)
;

关联Join操作

select * from main_table inner join cfg_city;

如果需要插入到Kafka等操作的话，直接一样创建表就可。

问题

如果你跟我一样使用上述的filesystem作为connector的话，那么可能就会报错。
原因是：使用了SQL FileSystem 后该任务会变成Bounded（一次性读取，不会更新），并且会有一个BUG，当path中的文件名称发生改变后（如：新增的文件无法被获取，老的文件删除会直接报错），会扔出 file not found的问题。

报错的时机

如果Flink fail 根据重试次数retry 并且 path中的文件被更改了。

报错详细

在这里插入图片描述

社区回复

在 https://issues.apache.org/jira/browse/FLINK-24641中可以看到，该问题确实存在，且无法被规避。

解决

使用Flink SQL 的 FileSystem时都会遇到这个问题，当前SQL 是不支持这个操作的。
请使用 ParquetRowInputFormat 来进行读取。
也就是说必须写代码了，不过我写了个模板欢迎获取，在主页中搜索以下内容

Flink 定时获取HDFS上某路径的parquet文件，并作为dim与Kafka中的主表进行关联。

青冬

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
当使用Flink 获取HDFS上的文件作为表进行计算时报错 file not found。

Flink 定时获取HDFS 上某路径的parquet文件，并作为dim进行关联。序业务SQL 实现问题报错的时机报错详细社区回复解决序在进行Flink 开发的时候，使用的是Flink 1.13.2版本，当前版本对Flink SQL支持已经比较不错了，所以想用纯Flink SQL进行开发。业务消费Kafka 中的数据作为主表，获取HDFS路径上的某一个配置dim表进行关联然后输出到Kafka中。SQL 实现这里仅仅使用少量的sql做个演示，创建主表SQL：CREATE TABLE main_
复制链接

扫一扫