在具有2列的目录中有多个文件(20),例如
transcript_id value
ENMUST001 2
ENMUST003 3
ENMUST004 5
每个文件中的行数不同我想做的就是以这种方式将所有20个文件合并到一个巨大的矩阵中
transcript_id value_file1 value_file2....value_file20
ENMUST001 2 3
ENMUST003 3 4
ENMUST004 5 0
从transcript_id列收集所有id,并从每个文件(文件名作为列名)中收集对应的值,如果没有值,则使用0.
我试图用熊猫来做到这一点,
import os
import glob
import pandas as pd
path = 'pathtofiles'
transFiles = glob.glob(path + "*.tsv")
df_files = []
for file in transFiles:
df = pd.read_csv(file, sep='\t')
df.set_index('transcript_id')
df_files.append(df)
df_combine = pd.concat(df_files, axis=1).fillna(0)
Error:
ValueError: No objects to concatenate
想知道非熊猫方式是否是更好的方法?任何伪代码表示赞赏.
编辑
找到输出
df.set_index('transcript_id')
print (df.shape