Fast Python Serialization with Ray and Apache Arrow

最新推荐文章于 2024-04-13 14:45:00 发布

xl.zhang

最新推荐文章于 2024-04-13 14:45:00 发布

阅读量4.6k

点赞数

分类专栏：【机器学习框架Ray】【机器学习框架Ray专栏讲解】文章标签： Ray Apache Arrow 序列化分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011254180/article/details/81051425

版权

本文探讨了Ray与Apache Arrow的集成，以解决数据序列化问题，特别是在机器学习和分布式计算中的瓶颈。文章介绍了设计目标、方法、加速比以及API，并指出对于大型数值数据，该方法能实现高效、零拷贝读取和语言无关性。实验结果显示，与pickle相比，Ray在反序列化速度上有显著提升，尤其在处理NumPy数组时。

摘要由CSDN通过智能技术生成

这篇文章详细阐述了Ray和Apache Arrow之间的集成。解决的主要问题是数据序列化。

查阅Wikipedia，序列化指：

将数据结构或对象状态转换为可以存储...或传输的格式的过程...以及稍后重建（可能在不同的计算机环境中）

为什么需要上述的转换？

当你创建一个Python对象时，它可能指向其他Python对象，并且这些对象都分配在不同的内存区域中，并且所有这些都必须在另一台机器上的另一个进程上处理才有意义。

序列化和反序列化是并行和分布式计算的瓶颈，尤其是在具有大型对象和大量数据的机器学习应用程序中。

设计目标

由于Ray针对机器学习和AI应用程序进行了优化，因此我们将重点放在序列化和数据处理上，并具有以下设计目标：

对于大型数值数据（包括NumPy数组和Pandas DataFrames，以及递归包含Numpy数组和Pandas DataFrames的对象），它应该非常高效。
对于一般的Python类型，它应该和Pickle一样快。
它应该支持共享内存，允许多个进程使用相同的数据而不复制它。
反序列化应该非常快（如果可能，它不应该要求读取整个序列化对象）。
它应该是与语言无关的（最终我们希望Python worker能够使用Java或其他语言的worker创建的对象，反之亦然）。

方法和替代方案

Python中的首选序列化方法是pickle模块。 Pickle很通用，特别是如果你使用像cloudpickle这样的变种。但是，它不满足要求1,3,4或5.像json这样的替代品满足5，但不满足1-4。

我们的方法：为了满足要求1-5，我们选择使用Apache Arrow格式作为基础数据表示。与Apache Arrow团队合作，我们构建了用于将常规Python对象映射到Arrow格式和从Arrow格式映射的库。这种方法的一些属性：

数据布局与语言无关（要求5）。
可以在

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Fast Python Serialization with Ray and Apache Arrow

这篇文章详细阐述了Ray和Apache Arrow之间的集成。解决的主要问题是数据序列化。查阅Wikipedia，序列化指：将数据结构或对象状态转换为可以存储...或传输的格式的过程...以及稍后重建（可能在不同的计算机环境中）为什么需要上述的转换？当你创建一个Python对象时，它可能指向其他Python对象，并且这些对象都分配在不同的内存区域中，并且...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。