pandas读取tsv大文件(GB)方法

TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

使用pandas读取tsv文件的代码如下:

train=pd.read_csv('test.tsv', sep='\t')

如果已有表头,则可使用header参数:

train=pd.read_csv('test.tsv', sep='\t', header=0)

如果已有主键列:

train=pd.read_csv('test.tsv', sep='\t', header=0, index_col='id')

在读取一个超大csv文件的时候,遇到困难:

  • 使用Notepad++打不开

  • 在python中使用基本的pandas.read_csv打开文件要等待很长时间却打不开

  • 最后查阅read_csv文档发现可以分块读取。

  • read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReader

  • 指定iterator=True 也可以返回一个可迭代对象TextFileReader :

 reader = pd.read_table('tmp.sv', sep='\t', iterator=True)
 
In : reader.get_chunk(5)
Out: 
   Unnamed: 0         0         1         2         3
0           0  0.469112 -0.282863 -1.509059 -1.135632
1           1  1.212112 -0.173215  0.119209 -1.044236
2           2 -0.861849 -2.104569 -0.494929  1.071804
3           3  0.721555 -0.706771 -1.039575  0.271860
4           4 -0.424972  0.567020  0.276232 -1.087401
  • 需要打开的数据集是个tsv文件,大小为10.1G,并且对于数据一无所知,所以首先打开前5行观察数据的类型,列标签等等:
chunks = pd.read_csv('chemicals_smiles.tsv',sep='\t',error_bad_lines=False,iterator = True)
chunk = chunks.get_chunk(5)
chemicalnamemolecular_weightSMILES_string
0CIDs00000001acetylcarnitine203.235580CC(=O)OC(CC(=O)[O-])CN+©C
1CIDs000000032,3-dihydro-2,3-dihydroxybenzoate156.136020C1=CC(C(C(=C1)C(=O)O)O)O
2CIDs000000041-aminopropan-2-ol75.109660CC(CN)O
3CIDs000000053-amino-2-oxopropyl phosphate169.073082C(C(=O)COP(=O)(O)O)N
4CIDs00000006DNCB202.552020C1=CC(=C(C=C1N+[O-])N+[O-])Cl

然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取(此参数用于设定每批读入多少行数据)。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数,可以直接调用:
说明:此函数针对csv文件,如果文件不是基于逗号分隔,在read_csv函数中设置对应的sep参数(分隔符)

def read_single_csv(input_path):
    import pandas as pd
    df_chunk=pd.read_csv(input_path,chunksize=1000)
    res_chunk=[]
    for chunk in df_chunk:
        res_chunk.append(chunk)
    res_df=pd.concat(res_chunk)
    return res_df

刚开始还报了一个错是文件格式不规范,导致有些行的列数过多,以为只是少数,所以设置了error_bad_lines=False,不让其报错而是直接忽略这些行。

问题可能由该设置引起。最后仔细查看原始文件,发现原始文件第一行是一串文字,所以导致pandas以第一行的格式为准,让后面所有行都被识别为bad line,而pandas对badline的判断是由异常扑捉实现的,当异常发生,异常捕捉实际上是个相对耗时的过程,而该文件的行数也很多,从而导致不断触发异常,故时间累积就变得很长,产生卡死的现象。

​ 最后,通过设置skiprows=1或者skiprows=[0]之后,就能够很快的成功读取了。因此,之后发现读取较大文件卡死现象,要先仔细分析原始文件的格式,还要注意在设置error_bad_lines参数为False之后,意识到badline的数量问题,数量太多可能会造成IO时间过长。

  • 9
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值