python RDKit 导入KEGG中化合物的MOL文件并创建一个Dataframe

将KEGG中的化合物结构信息导入,并生成化合物dataframe

导入KEGG化合物结构信息

在KEGG的compound数据库中,点击你所需要的化合物
比如C00024这个化合物,点进它的Mol file所得到的这些就是它的Mol文件,在可以结合rdkit这个库来使用选取某一条pathway的化合物,就可以整成该通路对应化合物的mol 文件
比如这是hsa00010中的化合物mol文件

创建dataframe

导入化合物的mol文件后,就要通过python读取这些文件,并创建相应的dataframe

首先是从文件夹读取对应的文件名:

import os

filePath = 'D:\hsa00010-MOL'   ###文件所在的位置
for i, j, names in os.walk(filePath):
    print(i)  #文件夹路径
    print(j)    #文件夹子目录
    print(names)   #文件名称

然后,我们要用的就是这里面的names(即文件名称):

import os
from rdkit import Chem
import pandas as pd

#####需要有rdkit,否则无法将化合物的molfile转成后面要用的mol形式

data1= pd.DataFrame(columns=())


filePath = 'D:\hsa00010-MOL'
for i, j, mols in os.walk(filePath):
     for file in mols:
            data1 = data1.append(pd.DataFrame({ 'Name':[file],'MOL': [Chem.MolFromMolFile(file)],}),ignore_index=True)

     print(data1)


#前面的index是dataframe自己生成的,后面我们可以自己定义所需要的index name

生成的结果如图:
总共只有两列,一个是Name,一个是化合物的MOL

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值