一键导出文献中的构效关系数据表

1. 什么是构效关系(SAR)?

构效关系(即结构-药效关系,Structure-Activity Relationship,简写为SAR)是一类非常重要的数据。它是每一个化合物的结构式和活性测试数据,用于不断优化和设计新的分子。

图片

图1:构效关系数据示例

2. 现有问题:文献SAR数据提取困难、耗时、低效

在研发相关的专利和论文中,具备大量的构效关系数据,但这些数据却难以提取出来,形成结构化的数据库,以便用于人类学习、SAR分析、分子设计。

科学家为此不得不花费宝贵的时间来整理,数日乃至数周进行Paper work,手动绘制结构式,手工输入文献表格中的活性数据,才能整理出一篇文献中的构效关系表格。

由于真实世界产生数据慢,成本高,大部分还在纸质记录上,这是科研创新等工作“周期长、成本高”的核心原因。

3. AI平台让文献工作变得轻松

在大语言模型等AI技术迅速发展的背景下,AI平台,把文献进行结构化整理,获取文本和图片中的化学结构信息,并与表格中的活性数据,通过编号一一关联,实现一键下载SAR构效关系数据表,数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。

4. InPaper操作步骤

下面小编以PDF文献提取操作的先后过程为例,分步骤来介绍。

步骤一:上传PDF文件

图片

图2:InPaper上传专利和论文PDF文件的界面。文件上传后进入排队,AI将进行数据识别和提取。点击文件名,就会进入结果详情页(工作窗口),即图3、4

步骤二:AI识别化学名称、结构图 

图片

图3:InPaper工作窗口,“识别化学名称”子窗口识别结果页

图片

图4:InPaper“识别结构图”子窗口识别结构页

步骤三:识别表格

图片

图5:InPaper“识别表格”子窗口,用于识别数据表格

说明:总表、导出和编辑

化学名称或图片形式的化合物,以及PDF表格,会由InPaper自动扫描、识别、显示于“总表”。其中,描述每个化合物的字段有:位置、SMILES、IUPAC中英文命名、分子式、分子量等。均可“导出”为EXCEL文件。

InPaper还支持在线编辑——只要“关注”感兴趣的化合物记录后,即可进行编辑。编辑后亦可“导出”。

步骤四:构效关系(SAR)组装——InPaper的重头戏

多个表格化合物的SAR由InPaper自动整理为统一格式总表,如下方图6系列所示

图片

⬆图6上:InPaper SAR总表,15项数据自动归集在一处

⬇图6下(表1-5):原PDF中,分散在5处的SAR数据

图片

图片

图6系列:文献中,第49号化合物原本分散的SAR整理到InPaper统一总表

5. 总结:

5.1 创新平台的优势
高效识别:使用AI技术,对化学名称、结构式、反应式、表格、构效关系SAR进行高效识别和整理。
自动组装:能自动组装SAR构效关系数据表,快速采集最关键的、最宝贵的数据资产。
快速采集:数分钟内即可完成一篇数十页的专利或论文SAR构效关系数据整理。
5.2 AI创新的转折点,正在出现!

随着InPaper的应用,科学家将能快速获得更多AI可以处理的、大规模的、结构化的SAR数据!AI创新将迎来新的发展机遇!

5.3 使用InPaper,您的文献工作将会轻松很多倍。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值