将KEGG中的化合物结构信息导入,并生成化合物dataframe
导入KEGG化合物结构信息
在KEGG的compound数据库中,点击你所需要的化合物
选取某一条pathway的化合物,就可以整成该通路对应化合物的mol 文件
创建dataframe
导入化合物的mol文件后,就要通过python读取这些文件,并创建相应的dataframe
首先是从文件夹读取对应的文件名:
import os
filePath = 'D:\hsa00010-MOL' ###文件所在的位置
for i, j, names in os.walk(filePath):
print(i) #文件夹路径
print(j) #文件夹子目录
print(names) #文件名称
然后,我们要用的就是这里面的names(即文件名称):
import os
from rdkit import Chem
import pandas as pd
#####需要有rdkit,否则无法将化合物的molfile转成后面要用的mol形式
data1= pd.DataFrame(columns=())
filePath = 'D:\hsa00010-MOL'
for i, j, mols in os.walk(filePath):
for file in mols:
data1 = data1.append(pd.DataFrame({ 'Name':[file],'MOL': [Chem.MolFromMolFile(file)],}),ignore_index=True)
print(data1)
#前面的index是dataframe自己生成的,后面我们可以自己定义所需要的index name
生成的结果如图: