全文共1513字,预计学习时长8分钟
图源:pixabay
一切都始于NumPy。2006年,大数据这个话题逐渐引起人们关注,特别是在Hadoop问世时,Pandas DataFrames紧随其后。2014年是大数据元年,同年Apache Spark投入使用。2018年,Dask和其他用于Python数据分析的库诞生。可以看到,Python中的大数据分析正在复兴。
每个月笔者都会找到一个想学的新工具,跟上最新的技术步伐也很重要。花一两个小时看教程是值得的,从长远来看这可以节省大量时间。最近,笔者发现了一个值得了解的用于数据分析的Python库。
Python中的大数据分析正在复兴
Meet Vaex
Vaex是一个高性能的Python库,类似于Pandas,是采用延迟out-of-core DataFrames库,可以对大型表格数据集进行可视化及探索。每秒可计算超过十亿行的基本统计数据。支持多种可视化,允许对大数据进行交互式探索。
Vaex vs Dask