在Pandas中,列表的合并有很多种方式,其中有一种是 .append()。
这个方法的效率很低,不推荐使用。建议先转为list后,再直接使用.append()。
具体来说,考虑以下场景:
假如有一份表格,1000W条(随便举),要按照某个属性groupby(分组)后,重新组成一个表输出的。
这个时候就可以用转为list在append会快很多,非常多。
import pandas as pd
data=pd.read_csv("file.csv")
gp=data.groupby(['user_id'])
NewList=[]
NewDataFrame=pd.DataFrame()
for x,y in gp:
NewList.append(y)
NewDataFrame=NewDataFrame.append(NewList)
如果直接才用合并的方法,会很慢。例如上述代码改为
import pandas as pd
data=pd.read_csv("file.csv")
gp=data.groupby(['user_id'])
NewList=[]
NewDataFrame=pd.DataFrame()
for x,y in gp:
NewDataFrame=NewDataFrame.append(y)