为什么每个数据科学家都应该使用 Dask？

最新推荐文章于 2024-07-28 15:46:11 发布

code2day

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量101

点赞数

分类专栏： Python源码技巧大全文章标签： python pandas 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/code2day/article/details/128759301

版权

Python源码技巧大全专栏收录该内容

50 篇文章 35 订阅 ¥39.90 ¥99.00

订阅专栏

Dask简直是我遇到过的最具革命性的数据处理工具。如果您喜欢 Pandas 和 Numpy，但有时会为无法放入 RAM 的数据苦苦挣扎，那么 Dask 绝对是您所需要的。Dask 支持 Pandas 数据框和 Numpy 数组数据结构，可以在本地计算机上运行，也可以扩展到集群上运行。本质上，您只需编写一次代码，然后选择在本地运行它或使用普通的 Pythonic 语法将其部署到多节点集群。这本身就是一个很棒的功能，但这并不是我写这篇博文并说每个数据科学家（至少是使用 Python 的人）都应该使用 Dask 的原因。对我来说，神奇的 Dask 功能是通过最少的代码更改，我可以利用笔记本电脑上已有的处理能力并行运行代码。并行处理数据，意味着更少的执行时间、更少的等待时间和更多的分析时间！这篇博文将讨论 dask.delayed 以及它如何融入数据科学工作流程。

熟悉Dask

作为对 Dask 的介绍，我将从几个例子开始，只是为了让您了解它完全不引人注目和自然的语法。这里的主要收获是您可以使用您已经知道的知识，而无需学习新的大数据工具，如 Hadoop 或 Spark。

Dask 引入了 3 个能够存储比 RAM 更大的数据的并行集合，即 Dataframes、Bags 和 Arrays。这些集合类型中的每一种都能够使用在 RAM 和硬盘之间分区的数据，以及分布在集群中多个节点上的数据。

Dask DataFrame 由较小的拆分 Pandas 数据帧组成，因此允许 Pandas 查询语法的子集。下面是加载 2018 年所有 csv 文件、解析时间戳字段然后运行 Pandas 查询的示例代码：

import dask.dataframe as dd

df = dd.read_csv('logs/2018-*.*.csv

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为什么每个数据科学家都应该使用 Dask？

Dask简直是我遇到过的最具革命性的数据处理工具。如果您喜欢 Pandas 和 Numpy，但有时会为无法放入 RAM 的数据苦苦挣扎，那么 Dask 绝对是您所需要的。Dask 支持 Pandas 数据框和 Numpy 数组数据结构，可以在本地计算机上运行，也可以扩展到集群上运行。本质上，您只需编写一次代码，然后选择在本地运行它或使用普通的 Pythonic 语法将其部署到多节点集群。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。