rdkit&nlp | 对化学smiles进行词嵌入

ASKCOS

于 2020-12-15 23:40:04 发布

阅读量697

点赞数

分类专栏： AIDD | CADD | 化学 | 生物文章标签：算法自然语言处理

本文链接：https://blog.csdn.net/weixin_43236007/article/details/111241642

版权

AIDD | CADD | 化学 | 生物专栏收录该内容

75 篇文章 139 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

对smiles化学表达式进行分词

中文语料数据为一批短文本或者长文本，比如：句子，文章摘要，段落或者整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的，有一定含义。而进行文本挖掘分析时，我们希望文本处理的最小单位粒度是词或者词语，所以这个时候就需要分词来将文本全部进行分词。

同样，对化学文本进行处理时我们希望处理的最小单位粒度是元素或者键

def smi_tokenizer(smi):
    """
    Tokenize a SMILES molecule or reaction
    """
    import re
    pattern =  "(\[[^\]]+]|Br?|Cl?|N|O|S|P|F|I|b|c|n|o|s|p|\(|\)|\.|=|#|-|\+|\\\\|\/|:|~|@|\?|>|\*|\$|\%[0-9]{2}|

了解本专栏

超级会员免费看

ASKCOS

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
rdkit&nlp | 对化学smiles进行词嵌入

对smiles化学反应处理def separate_reactant_reagent(smiles): """ Reactants and reagent separation (atom mappings) :param smi: :return: """ smiles = smiles.split(' |f')[0] # remove useless information reactant = smiles.split('>')[0]
复制链接

扫一扫