十七、Flink进阶-- 数据类型与序列化

最新推荐文章于 2024-07-31 15:31:24 发布

灰二和杉菜

最新推荐文章于 2024-07-31 15:31:24 发布

阅读量1.9k

点赞数

分类专栏： Apache Flink 文章标签： flink 数据类型与序列化

本文链接：https://blog.csdn.net/qq475781638/article/details/90753767

版权

Apache Flink 专栏收录该内容

28 篇文章 43 订阅

订阅专栏

flink在数据存储和数据交换的过程中需要交换大量信息，本篇我们了解一些关于flink序列化相关的内容。

常见问题

注册子类型：如果函数仅描述了父类型，但执行是指定子类型的话会大大提升性能，
注册自定义类型：类似google guava 集合类无法处理是就需要自定义序列化器
添加类型提示：当flink无法推断类型时，用户必须传递类型提示
用户自定义TypeInformation：对于某些API,由于泛型的擦除,flink无法推断类型

Flink数据类型分类

基础类型： int long Integer Double等
数组：Arrays
复合类型: Tuple Row PoJo 等
辅助类型： Option Lists Map
泛型和其他 kyro

开启avro序列化

final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
env.getConfig().enableForceAvro();

或者完全使用kyro进行处理

final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
env.getConfig().enableForceKryo();

参考文章： https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/types_serialization.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

灰二和杉菜

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

paimon实战 --核心原理和Flink应用进阶

阿华田的博客

05-15

693

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。

Flink 数据类型与序列化.pdf

07-17

Flink 2019峰会阿里大牛的技术，在线教程有github:*，第6个文档简明扼要的讲解Flink的数据类型和转换的源码分析。值得收藏

参与评论您还未登录，请先登录后发表或查看评论

[官方Flink进阶笔记 ] 五、 Flink 数据类型与序列化

张伯毅的专栏

02-20

1149

-------------------------一 .为 Flink 量身定制的序列化框架1.1. 为什么定制?1.2. Flink 的数据类型1.3. TypeInformation1.4. Flink 的序列化过程二 .Flink 序列化的最佳实践2.1. 最常见的场景2.2. 实践–类型声明2.2.1. 对于非泛型类，直接传入 class 对象即可。2.2.2. 对于泛型类，需要通过 TypeHint 来保存泛型类型信息。2.2.3. 预定义常量。2.2.4. 自定义 TypeInfo 和 Typ

【大厂Offer】教你如何从Flink小白成为Contributor最终拿到腾讯的Offer

最新发布

Zsigner的博客

07-31

906

一开始我也是怀揣着成为一个技术大老的梦想开始的，尽管我现在已经入职腾讯三年多了有时候觉得自己还是一个菜鸡哈..... 写这个文章希望可以帮助到刚刚接触大数据，并且对技术怀揣着梦想的朋友们，大家互相学习哈

flink数据类型和序列化-1.13

第一片心意的博客

11-28

1945

本博客是对 flink 1.13 官网中数据类型和序列化部分的翻译整理。

flink源码之各个数据类型对应的序列化

weixin_38472282的博客

07-09

1350

在进行序列化前，flink已经把每个数据的类型存到了 field中，当进行序列化时么，对于复合类型，例如对于tuple，会依次获取每个元素的数据类型，然后进行相应的序列化。 flink把类型分为 BasicType BasicArrayType WritableType TupleType RowTypeInfo MapType PojoType ListType GenericType BasicType 为普通的数据类型，string，int等，在BasicTypeInfo 中， public Ty

flink int序列化

不说话装高手

12-04

442

Flink中int的存储并不是直接通过int来存储，而是通过IntValue来存储，这样在内存中只需要存储4个字节大小的数据就可以保证单个int数据的存储。 private int value; 在IntValue中用value字段来保存所需要的int字段。在IntValue中值得一提的是copyNormaliedKey()方法。 @Override public void c...

Flink进阶教程：数据类型和序列化机制简介

皮皮鲁的AI星球

12-30

1440

几乎所有的大数据框架都要面临分布式计算、数据传输和持久化问题。数据传输过程前后要进行数据的序列化和反序列化：序列化就是将一个内存对象转换成二进制串，形成网络传输或者持久化的数据流。反序列化将二进制串转换为内存对象，这样就可以直接在编程语言中读写和操作这个对象。一种最简单的序列化方法就是将复杂数据结构转化成JSON格式。序列化和反序列化是很多大数据框架必须考虑的问题，在Java和大数据生态圈中，已有...

Apache Flink 进阶（五）：数据类型和序列化

阿里云技术

11-01

324

阿里云双11领亿元补贴，拼手气抽iPhone 11 Pro、卫衣等好礼，点此参与：http://t.cn/Ai1hLLJT 本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为Flink量身定制的序列化框架、Flink序列化的最佳实践、Flink通信层的序列化以及问答环节四部分分享。...

Flink进阶与调优

LSur_king的博客

04-18

1120

【知识点1】Flink在处理网络传输时，通过NetworkBuffer来实现攒批，权衡吞吐和延迟的关系。Flink 1.10 及以后的版本直接通过配置参数execution.buffer-timeout: 100ms可以设置，Flink 1.10 之前通过代码env.setBufferTimeout(100)设置。当设置为 0 时表示没有 timeout 策略，即：每条数据来了都认为 buffer 满了，将这一条数据单独发送给下游。保障了实时性，但吞吐可能会下降。要想吞吐不下降，就需要消耗更多的资...

Flink - Java篇

热门推荐

02-28

1万+

文章目录前言一、概述1 Flink是什么2 架构分层3 数据处理流水线4 运行组件TaskManagerJobManagerResourceManagerDispatcher5 其他流式计算框架二、入门与使用1 Flink基本安装1.1 Linux1.2 Java1.3 Scala（待补充）1.4 集群模式2 常用API2.1 DataStream 流处理DataSourceTransformationSink示例一：自定义数据源（SourceFunction）示例二：自定义分区示例三：Socket通信示例

Flink - 之Kafka Avro序列化格式转Json序列化格式（⭐⭐⭐）

shufangreal的博客

08-04

2411

Flink - 之Kafka Avro序列化格式转Json序列化格式（⭐⭐⭐）参考网址：apache avro官网 1 背景 TODO 后续补充，晚间12点了不想搞了~ 2 mvn依赖  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artifactId>

Flink接收Kafka和JSON反序列化

codragon的博客

10-26

3075

目录Flink接收Kafka和JSON反序列化使用ObjectMapper反序列化接收Kfaka事件消息 Flink接收Kafka和JSON反序列化 使用ObjectMapper反序列化 import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.databind.ObjectMapper; ... ObjectMapper om = new ObjectMapper();

Flink1.4.0中反序列化及序列化类变化

an7800666的博客

02-04

504

Flink1.4.0中，反序列化及序列化时继承的类，有一些被标记为了“@deprecated”，路径上也有变化： 1.AbstractDeserializationSchema 以前路径 org.apache.flink.streaming.util.serialization.AbstractDeserializationSchema 现在路径： org.a...

一、Flink数据类型

大JAVA解决方案

12-09

607

- 1.原生数据类型 * Flink通过实现BasicTypeInfo数据类型，能够支持任意Java原生基本类型(装箱)或String类型，例如Integer、String、Double等 DataSource<Integer> inputStream= environment.fromElements(1, 2, 3, 4, 5, 6); DataSource&...

【Flink】Flink Row和RowData的区别

九师兄

02-07

9011

Row 是暴露给 DataStream 用户用的，里面可以设置 RowKind，RowData 是 Table 内部的数据结构，在一些场景序列化会有提升，使用 Flink SQL 会直接应用上 RowData，当然高级用户想直接用 RowData 也是可以的，1.11 的新版 connector API 就是将 RowData 暴露给了 connector 开发者。 RowData如何构建？ SerializationSchema 如何构建 ...

Flink State 二三事

zstraw的博客

03-03

934

一、State 基础 State 作为 Flink 的基础设施，用于存储流计算计算节点的中间结果。如一个聚合计算的任务，先将历史的计算结果写入 state，当来了新数据时，再读取状态中的数据，更新后再写入 state。对于一个能在生产环境稳定使用的 State，它需要解决以下问题： 1. 低延时地读写； 2. 可靠、高可用，提供数据 Exactly Once 的语义，失败可恢复； 3. 数据可以分配在 subtask 中，任务中断修改并行度后，任务依然可以恢复，并能重新分配至新的 subtask 中； 4

【Flink】Table\Sql API 笔记：Row和RowData

Chain的博客

08-21

7093

【Flink】Table\Sql API 笔记：Row和RowData

Flink数据类型和序列化

勇心在馨

01-04

2970

序列化就是将一个内存对象转换成二进制串，形成网络传输或者持久化的数据流。反序列化将二进制串转换为内存对象，这样就可以直接在编程语言中读写和操作这个对象。在Java和大数据生态圈中，已有不少序列化工具，比如Java自带的序列化工具、Kryo等。一些RPC框架也提供序列化功能，比如最初用于Hadoop的Apache Avro、Facebook开发的Apache Thrift和Google开发的Prot...