![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
dask
文章平均质量分 64
白日与明月
厚德 博学 慎思 笃行
展开
-
Dask Bag 应用
Dask Bag包提供了如map\filter\groupby和python对象的集合聚集。 类似于pythonnic版本的pyspark RDD。 Dask 包通常用于对非结构化或半结构化数据(如文本数据、日志文件、JSON 记录或用户定义的 Python 对象)的简单计算进行并行化。 Bag的优点: Parallel:数据被拆分,允许多个内核或机器并行执行; 迭代:数据处理延迟,允许大于内存的数据平滑执行,即使在单个分区内的单个机器上; 原创 2021-12-29 22:31:17 · 799 阅读 · 0 评论 -
Dask介绍
Dask 是一个灵活的 Python 并行计算库。Dask由两部分组成: 为计算优化的动态任务调度。这类似于Airflow、Luigi、Celery 或 Make,但针对交互式计算工作负载进行了优化。 “大数据”集合,如并行数组、数据帧和列表,将常用接口(如NumPy、Pandas 或 Python 迭代器)扩展到大于内存或分布式环境。这些并行集合运行在动态任务调度程序之上。 Dask 强调以下优点: 熟悉:提供并行化的 NumPy 数组和 Pandas DataFrame .原创 2021-12-29 20:58:44 · 3310 阅读 · 0 评论