60.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中使用Kryo序列化

最新推荐文章于 2022-03-30 10:17:47 发布

zerone-f

最新推荐文章于 2022-03-30 10:17:47 发布

阅读量198

点赞数

分类专栏：大数据 spark 电商用户行为分析文章标签： Spark大型电商项目

本文链接：https://blog.csdn.net/someby/article/details/88806315

版权

大数据同时被 3 个专栏收录

196 篇文章 4 订阅

订阅专栏

spark

175 篇文章 3 订阅

订阅专栏

电商用户行为分析

141 篇文章 4 订阅

订阅专栏

Kryo序列化机制

为什么要使用Kryo进行序列化

Kryo序列化机制，一旦启用以后，会生效的几个地方

实例使用

本篇文章记录用户访问session分析-性能调优之在实际项目中使用Kryo序列化。

Kryo序列化机制

在进行stage间的task的shuffle操作时，节点与节点之间的task会互相大量通过网络拉取和传输文件，此时，这些数据既然通过网络传输，也是可能要序列化的，就会使用Kryo。

为什么要使用Kryo进行序列化

进一步优化，优化序列化格式

默认情况下，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化，这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。但是缺点在于，默认的序列化机制的效率不高，序列化的速度比较慢；序列化以后的数据，占用的内存空间相对还是比较大。

可以手动进行序列化格式的优化

Spark支持使用Kryo序列化机制。Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。所以Kryo序列化优化以后，可以让网络传输的数据变少；在集群中耗费的内存资源大大减少。