PySpark tutorial 学习笔记6——Serializers

最新推荐文章于 2022-05-20 20:28:37 发布

daisyyyyyyyy

最新推荐文章于 2022-05-20 20:28:37 发布

阅读量485

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/u013129109/article/details/81180654

版权

Serializers

Serializers用于Apache Spark的性能调优。通过网络发送或写入磁盘或持久存储在内存中的所有数据都应该序列化.

PySpark支持用于性能调优的自定义序列化程序。 PySpark支持以下两个序列化程序 -

MarshalSerializer
使用Python的Marshal Serializer序列化对象。此序列化程序比PickleSerializer更快，但支持更少的数据类型。

class pyspark.MarshalSerializer

PickleSerializer
使用Python的Pickle Serializer序列化对象。此序列化程序几乎支持任何Python对象，但可能不如MarshalSerializer快。

class pyspark.PickleSerializer
让我们看一下PySpark序列化的例子。在这里，我们使用MarshalSerializer序列化数据。

--------------------------------------serializing.py-------------------------------------
from pyspark.context import SparkContext
from pyspark.serializers import MarshalSerializer
sc = SparkContext("local", "serialization app", serializer = MarshalSerializer())
print(sc.parallelize(list(range(1000))).map(lambda

最低0.47元/天解锁文章

daisyyyyyyyy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PySpark tutorial 学习笔记6——Serializers

SerializersSerializers用于Apache Spark的性能调优。通过网络发送或写入磁盘或持久存储在内存中的所有数据都应该序列化.PySpark支持用于性能调优的自定义序列化程序。 PySpark支持以下两个序列化程序 - MarshalSerializer使用Python的Marshal Serializer序列化对象。此序列化程序比PickleSeriali...
复制链接

扫一扫

专栏目录