python RDKit 导入KEGG中化合物的MOL文件并创建一个Dataframe

最新推荐文章于 2024-02-24 23:31:28 发布

LinTank

最新推荐文章于 2024-02-24 23:31:28 发布

阅读量912

点赞数 1

分类专栏： RDKit 文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/G02200059_/article/details/115731994

版权

RDKit 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

将KEGG中的化合物结构信息导入，并生成化合物dataframe

导入KEGG化合物结构信息

在KEGG的compound数据库中，点击你所需要的化合物
比如C00024这个化合物，点进它的Mol file 所得到的这些就是它的Mol文件，在可以结合rdkit这个库来使用选取某一条pathway的化合物，就可以整成该通路对应化合物的mol 文件
比如这是hsa00010中的化合物mol文件

创建dataframe

导入化合物的mol文件后，就要通过python读取这些文件，并创建相应的dataframe

首先是从文件夹读取对应的文件名：

import os

filePath = 'D:\hsa00010-MOL'   ###文件所在的位置
for i, j, names in os.walk(filePath):
    print(i)  #文件夹路径
    print(j)    #文件夹子目录
    print(names)   #文件名称

然后，我们要用的就是这里面的names(即文件名称）：

import os
from rdkit import Chem
import pandas as pd

#####需要有rdkit,否则无法将化合物的molfile转成后面要用的mol形式

data1= pd.DataFrame(columns=())


filePath = 'D:\hsa00010-MOL'
for i, j, mols in os.walk(filePath):
     for file in mols:
            data1 = data1.append(pd.DataFrame({ 'Name':[file],'MOL': [Chem.MolFromMolFile(file)],}),ignore_index=True)

     print(data1)


#前面的index是dataframe自己生成的，后面我们可以自己定义所需要的index name

生成的结果如图：
总共只有两列，一个是Name,一个是化合物的MOL

LinTank

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python RDKit 导入KEGG中化合物的MOL文件并创建一个Dataframe

将KEGG中的化合物结构信息导入，并生成化合物dataframe导入KEGG化合物结构信息在KEGG的compound数据库中，点击你所需要的化合物选取某一条pathway的化合物，就可以整成该通路对应化合物的mol 文件创建dataframe导入化合物的mol文件后，就要通过python读取这些文件，并创建相应的dataframe首先是从文件夹读取对应的文件名：import osfilePath = 'D:\hsa00010-MOL' ###文件所在的位置for i, j, na
复制链接

扫一扫