本文就Pandas的运行效率作一个对比的测试,来探讨用哪些方式,会使得运行效率较好。
测试环境如下:windows 7, 64位
python 3.5
pandas 0.19.2
numpy 1.11.3
jupyter notebook
需要说明的是,不同的系统,不同的电脑配置,不同的软件环境,运行结果可能有些差异。就算是同一台电脑,每次运行时,运行结果也不完全一样。
1 测试内容
测试的内容为,分别用三种方法来计算一个简单的运算过程,即 a*a+b*b 。
三种方法分别是:python的for循环
Pandas的Series
Numpy的ndarray
首先构造一个DataFrame,数据量的大小,即DataFrame的行数,分别为10, 100, 1000, … ,直到10,000,000(一千万)。
然后在jupyter notebook中,用下面的代码分别去测试,来查看不同方法下的运行时间,做一个对比。import pandas as pdimport numpy as np# 100分别用 10,100,...,10,000,000来替换运行list_a = list(range(100))# 200分别用 20,200,...,20,000,000来替换运行list_b = list(range(100,200))
print(len(list_a))
print(len(list_b))