在利用python进行数据分析和处理时,经常会需要遍历DataFrame行,不同的遍历方法会对数据处理的效率有很大的影响。
现在有以下的数据
import pandas as pd
from pandas import DataFrame as DF
from datetime import datetime
data=DF({'data1':np.random.randn(30000),'data2':np.random.randn(30000),'data3':np.random.randn(30000)})
import pandas as pd
from pandas import DataFrame as DF
from datetime import datetime
data=DF({'data1':np.random.randn(30000),'data2':np.random.randn(30000),'data3':np.random.randn(30000)})
通过不同的遍历方法原数据的各个元素*2,并赋值给新的DF数据
方法1)DF.iterrows()
frame=DF()
a=datetime.now()
for index, row in data.iterrows():
frame=frame.append(row*2)
print('start time',a)
print('end time',datetime.now())
结果:start time 2019-04-02 20:51:58.385586
end time 2019-04-02 20:52:36.782586 总用时38s左右