Flink序列化和Java序列化对比

最新推荐文章于 2024-04-26 10:08:45 发布

优优我心

最新推荐文章于 2024-04-26 10:08:45 发布

阅读量769

点赞数

文章标签： flink serialize java

本文链接：https://blog.csdn.net/weixin_41608066/article/details/106556636

版权

Java的序列化机制一般是对象实现Serializable接口，并指定serialVersionUID。通过字节流的方式来实现序列化和反序列化。
serialVersionUID的作用是用来作为版本控制，如果serialVersionUID发生改变则会反序列化失败。
主要用途：

Flink实现了自己的序列化框架，并结合自身的内存模型，实现了对象的密集存储也高效操作。

在这里插入图片描述

可以看出这种序列化方式存储密度是相当紧凑的。其中 int 占4字节，double 占8字节，POJO多个一个字节的header，PojoSerializer只负责将header序列化进去，并委托每个字段对应的serializer对字段进行序列化。
memory pool 内存池 memorySegment的数据结构，由两部分组成，一部分是存储key+pointer（完整二进制数据的指针以及定长的序列化后的key），第二部分是对象的二进制数据
如下图：

使用内存池管理内存和使用二进制存储数据的的好处：

避免oom，所有的运行时数据结构和算法只能通过内存池申请内存，保证了其使用的内存大小是固定的，不会因为运行时数据结构和算法而发生OOM。在内存吃紧的情况下，算法（sort/join等）会高效地将一大批内存块写到磁盘，之后再读回来。因此，OutOfMemoryErrors可以有效地被避免。
节省内存空间，Java 对象在存储上有很多额外的消耗，使用二进制可以避免。
高效的二进制操作 & 缓存友好的计算，第一，交换定长块（key+pointer）更高效，不用交换真实的数据也不用移动其他key和pointer。第二，这样做是缓存友好的，因为key都是连续存储在内存中的，可以大大减少 cache miss（cpu读取L1,L2,L3高速缓存速度高于读取主内存速度几个数量级，使用key+pointer极大提高缓存L1,L2,L3命中率）
注意：Flink 中，排序会先用 key 比大小，这样就可以直接用二进制的key比较而不需要反序列化出整个对象。因为key是定长的，如果key相同（或者没有提供二进制key），那就必须将真实的二进制数据反序列化出来，然后再做比较。之后，只需要交换key+pointer就可以达到排序的效果，真实的数据不用移动。

关注