文件夹下的多个sdf文件批量转化为csv

qiqi985

已于 2022-06-25 11:38:55 修改

阅读量538

点赞数

分类专栏：学习 python代码学习文章标签： python 开发语言

于 2022-06-13 21:07:10 首次发布

本文链接：https://blog.csdn.net/qiqi985/article/details/125267527

版权

学习同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

python代码学习

5 篇文章 0 订阅

订阅专栏

这段Python代码用于读取PDBbind_v2020_refined数据集，特别是遍历每个以蛋白质命名的文件夹，查找.sdf格式的药物分子文件，并将它们的SMILES字符串写入CSV文件。代码利用RDKit库进行分子处理和SMILES转换。

摘要由CSDN通过智能技术生成

这个代码适合这种形式的文件读取，每个以蛋白质命名的文件夹下面有对应的药物分子sdf和蛋白质pdb文件：

在这里插入图片描述

import sys
import torch
import os
from rdkit import Chem
from pathlib import Path
import glob
import csv
import ast
from ast import literal_eval
file  = os.listdir('./PDBbind_v2020_refined/refined-set/') #总文件夹

list=[]
n=0
f=open('out1.csv','w')
wr=csv.writer(f)
for name in file:
    path=os.path.join("./PDBbind_v2020_refined/refined-set/",name)
    files=glob.glob(os.path.join(path, "*.sdf"))
    row_str = '\t'.join([str(x) for x in files])
    mols = [ mol for mol in Chem.SDMolSupplier(row_str,sanitize=False) ]
    for mol in mols:
        smi = Chem.MolToSmiles(mol)
        list.append(smi)
        
for i in range(len(list)):   
    wr.writerows([[list[i]]]) 
f.close()