先上官方文档:Dask
搜索相关问题:Stack Overflow with the #dask tag
Anaconda默认安装了Dask,因此我们不需要再另外安装Dask。并且linux和window都可以使用。
介绍
图片来源:https://docs.dask.org/en/latest/index.html
一句话总结: Dask is a flexible library for parallel computing in Python.
- 动态调度资源提供并行计算(加速)
- 并行化的数据集成提供接口给numpy,pandas或者python迭代器(提供接口)
- Task Graph 任务图非常清晰,使得开发人员和用户都可以自由地构建复杂的算法,并处理大多数数据工程框架中常见的map/filter/groupby范式难以处理的混乱情况。(帮助理解)
- 从个人电脑->集群(用途广泛)
简单的对比
Dask DataFrame mimics Pandas
import pandas as pd import dask.dataframe as dd
df = pd.read_csv('2015-01-01.csv')