http://dask.pydata.org/en/latest/index.html
数据结构与pandas非常相似
https://www.cnblogs.com/HelloGreen/p/8817863.html
Dask是一款用于分析计算的灵活并行计算库。
Dask由两部分组成:1.针对计算优化的动态任务调度。这与Airflow,Luigi,Celery或Make类似,但针对交互式计算工作负载进行了优化。
2.“大数据”集合, 像并行数组,数据框和列表一样,它们将通用接口(如NumPy,Pandas或Python迭代器)扩展到大于内存或分布式环境。 这些并行集合运行在动态任务调度器之上。
Dask 安装
在配置好 pip 的环境下安装,只需要命令
pip install dask
即可安装完成Dask的核心部分。而且非常小,才 1MB
但是如果需要用到比较多的功能的话,还是建议装完整版本
pip install dask[complete]
这里还要注意一个坑,dask的有一些库要求的python版本 > 2.7.8 或者 3.4——版本过低容易被坑