1. 什么是构效关系(SAR)?
构效关系(即结构-药效关系,Structure-Activity Relationship,简写为SAR)是一类非常重要的数据。它是每一个化合物的结构式和活性测试数据,用于不断优化和设计新的分子。
图1:构效关系数据示例
2. 现有问题:文献SAR数据提取困难、耗时、低效
在研发相关的专利和论文中,具备大量的构效关系数据,但这些数据却难以提取出来,形成结构化的数据库,以便用于人类学习、SAR分析、分子设计。
科学家为此不得不花费宝贵的时间来整理,数日乃至数周进行Paper work,手动绘制结构式,手工输入文献表格中的活性数据,才能整理出一篇文献中的构效关系表格。
由于真实世界产生数据慢,成本高,大部分还在纸质记录上,这是科研创新等工作“周期长、成本高”的核心原因。
3. AI平台让文献工作变得轻松
在大语言模型等AI技术迅速发展的背景下,AI平台,把文献进行结构化整理,获取文本和图片中的化学结构信息,并与表格中的活性数据,通过编号一一关联,实现一键下载SAR构效关系数据表,数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。
4. InPaper操作步骤
下面小编以PDF文献提取操作的先后过程为例,分步骤来介绍。
步骤一:上传PDF文件
图2:InPaper上传专利和论文PDF文件的界面。文件上传后进入排队,AI将进行数据识别和提取。点击文件名,就会进入结果详情页(工作窗口),即图3、4
步骤二:AI识别化学名称、结构图
图3:InPaper工作窗口,“识别化学名称”子窗口识别结果页
图4:InPaper“识别结构图”子窗口识别结构页
步骤三:识别表格
图5:InPaper“识别表格”子窗口,用于识别数据表格
说明:总表、导出和编辑
化学名称或图片形式的化合物,以及PDF表格,会由InPaper自动扫描、识别、显示于“总表”。其中,描述每个化合物的字段有:位置、SMILES、IUPAC中英文命名、分子式、分子量等。均可“导出”为EXCEL文件。
InPaper还支持在线编辑——只要“关注”感兴趣的化合物记录后,即可进行编辑。编辑后亦可“导出”。
步骤四:构效关系(SAR)组装——InPaper的重头戏
多个表格化合物的SAR由InPaper自动整理为统一格式总表,如下方图6系列所示
⬆图6上:InPaper SAR总表,15项数据自动归集在一处
⬇图6下(表1-5):原PDF中,分散在5处的SAR数据
图6系列:文献中,第49号化合物原本分散的SAR整理到InPaper统一总表
5. 总结:
5.1 创新平台的优势
高效识别:使用AI技术,对化学名称、结构式、反应式、表格、构效关系SAR进行高效识别和整理。
自动组装:能自动组装SAR构效关系数据表,快速采集最关键的、最宝贵的数据资产。
快速采集:数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。
5.2 AI创新的转折点,正在出现!
随着InPaper的应用,科学家将能快速获得更多AI可以处理的、大规模的、结构化的SAR数据!AI创新将迎来新的发展机遇!