.sdf和.msp文件读取

前言

        .sdf和.msp文件都可以用来存储分子信息,.sdf文件可以用rdkit读取,.msp文件就只能当成文本文档读取了。

读取

rdkit安装

pip install rdkit

.sdf读取

from rdkit import Chem


suppl_h = Chem.SDMolSupplier('../data/HMDB/f_hmdb.sdf') # 得到一个迭代器
mols_h = [mol for mol in suppl_h if mol] 
hmdb_smi = [mol.GetProp('SMILES') for mol in mols_h]
hmdb_smi_set = set(hmdb_smi)

 分子mol有一些常用的函数:

mol.GetPropsAsDict() # 可以获得分子的所有key及其value
smi = 'COO'
mol.SetProp('SMILES', smi) # 可以设置mol的属性

.msp读取

         把.msp文件当成普通的文本文档去读取,主要涉及字符串操作。

def read_msp2mgf(file_path, save_path):
    f = open(file_path, 'r')
    lines = f.readlines()
    i = 0
    spectrums = []
    name, inchikey, smiles, exactmass, num_peaks = None, None, None, None, None
    while i < len(lines):
        l = lines[i].replace('\n', '')     # 空行用空字符替换
        if l.startswith('Name:'):
            name = l.split(': ')[-1]
        elif l.startswith('InChIKey:'):
            inchikey = l.split(': ')[-1]
        elif l.startswith('SMILES:'):
            smiles = l.split(': ')[-1]
        elif l.startswith('ExactMass:'):
            exactmass = float(l.split(': ')[-1])
        elif l.startswith('Num Peaks:'):
            num_peaks = int(l.split(': ')[-1])
        elif len(l) > 0 and ':' not in l:
            mz, inten = [], []
            while lines[i] != '\n':
                mz.append(float(lines[i].split(' ')[0]))
                inten.append(float(lines[i].split(' ')[1]))
                i += 1
            mz = np.array(mz)
            inten = np.array(inten)
            metadata = {'Name':name, 'InChIKey':inchikey,'SMILES':smiles, 'ExactMass':exactmass, 'Num Peaks':num_peaks}
            spectrum = spec.Spectrum(mz, inten, metadata)
            spectrums.append(spectrum)
            name, inchikey, smiles, exactmass, num_peaks = None, None, None, None, None
        i += 1
    spec.save_as_mgf(spectrums, save_path+'MassBank1.mgf')

        此外可以使用matchms库进行读取:

pip install matchms

 

from matchms.importing import load_from_msp

spectrums = [s for s in load_from_msp("MassBank_NIST.msp")]

结语

        有问题欢迎在评论区讨论。

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Burger~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值