flink smallint类型不兼容hudi

本文档详细记录了在使用Flink 1.14.5和Hudi 0.11.1时遇到的一个问题,即Flink通过CDC同步MySQL表到Hudi后,查询Hudi表时由于smallint类型导致的异常。通过问题重现和分析,发现Flink在读取Hudi表时尝试将HeapIntVector转换为HeapShortVector,但源数据在Parquet文件中已经是HeapIntVector。解决方案是将Flink SQL中的smallint更改为int类型。此问题同样可能影响tinyint类型。
摘要由CSDN通过智能技术生成

1. 问题现象

  • flink 1.14.5
  • hudi 0.11.1

通过flink cdc同步了一个mysql表到hudi,并且数据compact到了parquet文件,此时通过flink sql去查询该hudi表时报以下异常

10:27:24 WARN  split_reader -> NotNullEnforcer(fields=[id]) (1/4)#0 org.apache.flink.runtime.taskmanager.Task                     - split_reader -> NotNullEnforcer(fields=[id]) (1/4)#0 (e382ae300d3d2034085bc7aba45948e4) switched from RUNNING to FAILED with failure cause: java.lang.ClassCastException: org.apache.flink.table.data.vector.heap.HeapIntVector cannot be cast to org.apache.flink.table.data.vector.ShortColumnVector
	at org.apache.flink.table.data.vector.VectorizedColumnBatch.getShort(VectorizedColumnBatch.java:78)
	at org.apache.flink.table.data.ColumnarRowData.getShort(C
要实现Flink CDC实时同步Oracle到Hudi,你可以按照以下步骤进行操作: 1. 首先,配置Flink的Savepoints和Checkpoints,这样就可以实现断点续传的功能。这在生产环境中是建议的配置。 2. 使用Flink SQL创建Hudi表并进行元数据自动同步到Hive。你可以按照以下示例创建表: ```sql CREATE TABLE source_table ( uuid varchar(20), name varchar(10), age int, ts timestamp(3), `partition` varchar(20) ) WITH ( 'connector' = 'datagen', 'rows-per-second' = '1' ); CREATE TABLE hudi_table ( uuid varchar(20), name varchar(10), age int, ts timestamp(3), `partition` varchar(20) ) WITH ( 'connector' = 'hudi', 'path' = '$HUDI_DEMO/t2', -- 将$HUDI_DEMO替换为实际的绝对路径 'table.type' = 'MERGE_ON_READ', 'write.bucket_assign.tasks' = '2', 'write.tasks' = '2', 'hive_sync.enable' = 'true', 'hive_sync.mode' = 'hms', 'hive_sync.metastore.uris' = 'thrift://ip:9083' -- 将ip替换为HMS的地址 ); INSERT INTO hudi_table SELECT * FROM source_table; ``` 以上示例创建了`source_table`作为源表和`hudi_table`作为Hudi表,然后将源表的数据实时同步到Hudi表中。请将`$HUDI_DEMO`替换为实际的绝对路径,将`ip`替换为HMS的地址。 3. 确保你已经下载了所需的依赖jar。你需要下载MySQL驱动器以及Flink SQL的连接器和Flink CDC的依赖。你可以根据以下链接自行下载所需的jar包: - Flink SQL连接器:https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/connectors/table/jdbc/ - Flink CDC依赖:https://ververica.github.io/flink-cdc-connectors/release-2.3/content/connectors/mysql-cdc(ZH).html#a-name-id-002-a 通过以上步骤,你可以实现Flink CDC实时同步Oracle到Hudi的功能。这将使数据同步变得简单且可靠。记得替换示例中的路径和地址为实际的值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值