Dask库:大规模数据存储与读取、并行计算

http://dask.pydata.org/en/latest/index.html

https://github.com/dask/dask

数据结构与pandas非常相似

https://www.cnblogs.com/HelloGreen/p/8817863.html

Dask是一款用于分析计算的灵活并行计算库。

Dask由两部分组成:
1.针对计算优化的动态任务调度。这与Airflow,Luigi,Celery或Make类似,但针对交互式计算工作负载进行了优化。

2.“大数据”集合, 像并行数组,数据框和列表一样,它们将通用接口(如NumPy,Pandas或Python迭代器)扩展到大于内存或分布式环境。 这些并行集合运行在动态任务调度器之上。

Dask 安装
在配置好 pip 的环境下安装,只需要命令
 pip install dask
即可安装完成Dask的核心部分。而且非常小,才 1MB

但是如果需要用到比较多的功能的话,还是建议装完整版本

pip install dask[complete]

这里还要注意一个坑,dask的有一些库要求的python版本 > 2.7.8 或者 3.4——版本过低容易被坑


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值