我有多个(25k).csv文件,我试图附加到HDFStore文件.它们都共享相同的标题.我使用下面的代码,但由于某种原因,每当我运行它时,数据帧不会附加所有文件,而只是列表中的最后一个文件.
filenames = [] #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
store = pd.HDFStore('store.h5')
store.put('df', pd.read_csv(filenames[0],dtype=dtypes,parse_dates=
["date"])) #store one data frame
for f in filenames:
try:
temp_csv = pd.DataFrame()
temp_csv = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"])
store.append('df', temp_csv)
except:
pass
我已经尝试使用文件名列表的子集,但总是得到最后一个条目.出于某种原因,循环不会附加我的文件,而是每次都覆盖它.任何建议都会受到赞赏,因为这会让我感到疯狂. (python 3,windows)
我认为问题与:
store.append(‘df’,temp_csv)
如果我正确理解你要做的事情,’df’应该改变每一次迭代,你现在只是覆盖它.