![fd2d775c06aff8f0dc2a702cb1b15665.png](https://i-blog.csdnimg.cn/blog_migrate/6c476cfba4ab4ad363b7ca58084d4925.png)
Python及其最流行的数据争用库Pandas日益流行。 与Java等竞争对手相比,Python和Pandas使数据探索和转换变得简单。
但是众所周知,Python和Pandas都具有围绕可伸缩性(Scalability)和效率的问题。
Python是一种解释型,动态类型化的语言,因此立即失去了一些效率。 但更重要的是,Python始终侧重于简单性和可读性,而不是原始能力。 同样,Pandas专注于提供简单的高级API,而很大程度上忽略了性能。
因此,许多开发人员试图以各种方式为Python和Pandas添加更多功能也就不足为奇了。 一些最著名的项目是:
Dask:low-level调度程序和高级别的部分Pandas替换,专门用于在计算群集上运行代码。
Ray:一个用于在处理器或集群之间并行化Python代码的底层框架。
Modin:由Dask或Ray驱动的Pandas的直接替代品。
Vaex:Pandas的部分替代品,使用懒惰的评估和内存映射来允许开发人员在标准计算机上处理大型数据集。
RAPIDS:在GPU上运行的数据科学库的集合,其中包括cuDF(Pandas的部分替代品)。
以下是Python数据争用格局的概述: