一、化学家的痛苦:人脑真不能直接把化学名称转成结构图
作为一名的药物化学家,我最近被“锁”在电脑前阅读PI3K小分子新药专利,进实验室挥斥方遒的时间少了。
因为公司在进行PI3K某亚型抑制剂新药立项,我进行Patent busting和论文汇总,力求避开同行的专利护城河,并充分借鉴公开研究成果,快速设计出一系列有专利空间、有成药性的新化学结构。
众所周知,这些年,专利和论文都呈现爆发式增长,所以药物化学家的任务很艰巨,阅读专利时,经常有这样一个刻骨铭心的痛点:
很多专利的可读性很差,常常只显示化学名称,不显示结构图,化学家无法快速把化学名称,转成能人脑能理解的化学结构图;只好一个个把名称复制出来,再粘贴到InDraw或ChemDraw中,进行名称转结构图。
3-(4-(((2-((adamantan-1-ylamino)methyl)thiazol-4-yl)methyl)thio)-1-oxoisoindolin-2-yl)piperidine-2,6-dione
图1. 英文名称转结构式。药物化学所指的“名称”,可不简单!需要专业转换工具软件。动图演示操作过程;静图展示转换结果。
让人绝望的是,绝大多数情况下,这些专利的PDF文件,都是图片格式的,导致这些化学名称无法直接复制,只能一个个打字打出来,再粘贴到InDraw或ChemDraw中转结构式图,几百个结构都要这么做的话,会非常痛苦!这样导致阅读专利的效率极低,让化学家们直接抓狂!!!
当遇到中文名称时,化学家们直接就傻眼了,只好把邢其毅老师有机化学课本中IUPAC(国际纯粹与应用化学联合会标准)命名章节拿出来温习;花一天时间熟练后,根据中文名称、连接关系,一笔一画,手动绘制结构式……一晃,一个结构式花了20分钟,一埋头,3个小时(180分钟),只画了10来个分子的结构,连一篇专利都结束不了!还不容易检查正确性。当然,幸好后来InDraw软件支持中文名称转结构式,可以大大降低门槛、加快速度,但还是得逐个转换,工作量也同样巨大。
2-(2,6-二氧代哌啶-3-基)-4-氟异吲哚
图2. 中文名称转结构式。动图演示操作过程;静图展示转换结果。
化学家们做梦都想要的工具是,鼠标悬停到化学名称的时候,这个结构图直接显示出来。
真的能实现鼠标悬停到化学名称的时候,这个结构图真的显示出!!!亲测有效!
它是InPaper!
下面让我来为大家介绍一下!
二、什么是InPaper?
InPaper是一种文献结构化系统。目前是基于AI的专利/论文数据挖掘工具,旨在帮助化学、生物、材料等科学家们快速分析文献,实现从名称获取结构图、批量导出结构的 SMILES/Mol 文件、直接复制列表数据、组装构效关系等功能;用户能对多篇文献进行全文搜索、结构式搜索,能建立一个可搜索的文献数据库。
我遇到的希望化合物名称,鼠标悬停直接转结构图,InPaper就能实现!不仅支持英文名称直接转结构图,居然还支持中文名称直接转结构图,这可是世界级难题啊!!!
我试用了一番,结果图片如下:
图3.
InPaper左侧栏:专利PDF原文标注,鼠标悬停就显示化学名称的结构图。
InPaper右侧栏:批量从专利中识别全部英文化学名称,并自动生成结构图、SMILES。
SMILES: Simplified molecular input line entry system,即简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范,从1980年代开始应用。
图4. InPaper批量从专利中识别到的中文化学名称,及自动转换得到的结构。
无论一个化学名是英文还是中文,是在标题、摘要、介绍、方法、材料,还是表格或参考文献,InPaper都找出来了。神奇的是,直接转为结构图,而且可以批量导出图片和SMILES!而在InDraw for Excel中,可以直接将批量的SMILES,在Excel中转为结构图!如下图。
动图演示:InDraw For EXCEL进行批量SMILES转结构.gif
当然,InPaper还有其他多种功能,由于篇幅有限,笔者将会放在后面几期详细介绍。本文只贴几个功能图片,让大家一睹为快。
图5, InPaper批量从专利中识别到的化学结构式,并自动生成SMILES和中文IUPAC名称。
图6. InPaper批量从专利中识别化学反应式。
图7, InPaper批量从专利中识别和组装构效关系表(SAR)。
图8, InPaper批量从专利中识别其他重要数据表。
图9, InPaper批量转换名称/结构式/SMILES/Mol,计算理化性质。
三、总结:InPaper是药物化学家最想要的一款软件
如上所述,为了新药研发,药物化学家必须仔细研究大量专利。
海量的化合物名称和结构,成为药化学家的时间杀手。
对于药物化学家而言,此类工作难度不大,只是数量令人头疼;符合自动化大趋势。
因此,笔者断定InPaper是药物化学家最想要的专利处理软件。
四、使用方法
读者朋友们可以阅读上述“Integle鹰谷”原文《智能批量采集专利和期刊论文中的化学结构、生物活性和SAR数据,InPaper成功上线,限时免费试用!》。
笔者的试用体会(补充):
虽然InPaper原始识别结果中还有个别的错误,但是可以通过“关注(相当于另存)”和修改,再导出准确的表格,快速完成专利识别整理工作。我打85分。
InPaper可以缩短“情报到产出”的路径,加快研发速度,带来倍增价值。
最后,祝大家得偿所愿!谢谢关注!
完