DataFrame高度碎片化的情况通常是由多次调用frame.insert
引起的。很多博主提到:
DataFrame本身是一个可变对象,insert方法会修改DataFrame的内存结构,每次调用insert都会产
生内存拷贝,导致内存空间被分为多块并且不连续。因此,在循环中多次调用df.insert
方法,会
导致DataFrame高度碎片化。python建议使用concat方法来合并DataFrame。
若你在for循环中使用了data.loc[index, 'column']
,解决方法是先将结果添加到列表中,最后一
次性将列表加入到DataFrame中。
import pandas as pd
list1=[]
list2=[]
list3=[]
for index,row in data.iterrows():
TR.appen(data1)
pdi.append(data2)
ndi.append(data3)
add = pd.DataFrame({'data1': list1,'data2': list2,'data3': list3})
df = pd.concat([df, add], axis=1)