PubChem介绍及API及PubChempy

PubChem是全球最大的免费化学信息数据库,由NCBI维护,包含Compound、Substance和BioAssay三个子数据库。本文介绍了如何通过关键词检索、结构式检索以及使用PubChem PUG REST API进行数据查询和打包下载。此外,还提及了Python库PubChemPy的安装、使用,包括Compound和Substance的查询以及与pandas集成的功能。
摘要由CSDN通过智能技术生成

PubChem

【官网 https://pubchem.ncbi.nlm.nih.gov/】

简介

PubChem is the world’s largest collection of freely accessible chemical information. Search chemicals by name, molecular formula, structure, and other identifiers. Find chemical and physical properties, biological activities, safety and toxicity information, patents, literature citations and more.

PubChem,即有机小分子生物活性数据,是一种化学模组的数据库,由美国国家健康研究院( US National Institutes of Health,NIH)支持,美国国家生物技术信息中心负责维护。

PubChem数据库包括 3个子数据库:

  • PubChem Compound用于存储整理后的化合物化学结构信息
  • PubChem Substance用于存储机构和个人上传的化合物原始数据
  • PubChem Bioassay用于存储生化实验数据,实验数据来自于高通量筛选和文献

PubChem数据库属于NCBI旗下,收录11100万种化合物结构信息存储于PubChem Compound子数据库,27100万种用户上传的化合物数据存储于PubChem Substance子数据库,29800万种实验结果或文献支持的化合物生物活性数据存储于PubChem BioAssay子数据库,还有3200万篇相关文献和250万相关专利,以及90426个靶基因、96561个靶蛋白和23915条通路信息,上述数据来源总计799个。PubChem数据库包含大量化合结构信息、理化性质及生物活性、毒性和安全性数据,并提供详实的文献或专利支持,广为生物医药与生物化学交叉领域的科研人员所青睐。

image-20230509145333303

数据查询方法

  • 关键词检索

在主页检索框输入关键词进行快速检索,检索词支持输入化合物名称、化学式、CAS ID号、SMELE和InchI表达式,或基因名,并提供Covid-19专题检索功能。

以阿司匹林aspirin为例,检索结果有121条化合物结构信息,包括阿司匹林单体和混合药物,有25条通路数据,1998条药物活性数据,近7万文献或专利。

点击Compounds目录下第一条查看详情。首先映入眼帘的是aspirin信息概览,包括PubChem CID、化合物结构、化学安全分类、分子式、同义词、分子量和数据更新时间,并提供aspirin药理功能注释和肝毒性信息,提供NCI Thesaurus、LiverTox和DrugBank数据库链接。右侧栏为该页面所展示的信息目录。

image-20230509160929520

接下来介绍各部分详细信息:Structure部分展示aspirin的2D、3D和晶体结构,右上角可下载结构信息文件或保存图片,可在数据库检索结构类似的化合物。

image-20230509161033362

Names and Identifiers部分展示aspirin的各种表达式、别名和标识符。IUPAC Name为2-乙酰氧基苯甲酸(2-acetyloxybenzoic acid),InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12),SMILES:CC(=O)OC1=CC=CC=C1C(=O)O

image-20230509161225975

提供CAS、EC、ICSC和UNII等数据库ID,以及各种同义词。

image-20230509161308188

Chemical and Physical Properties部分展示aspirin理化性质,比如溶解度。

image-20230509161521146

接下来比较重要的一部分:Biomolecular Interactions and Pathways,展示aspirin的靶基因、靶蛋白及结构、通路、药物相互作用和药物食物相互作用等信息。

0 (../../%25E7%2594%259F%25E5%258C%2596%25E4%25BB%25A3%25E8%25B0%25A2%25E6%2595%25B0%25E6%258D%25AE%25E5%25BA%2593/assets/1627019872170873.png).png

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YodFMH2O-1685934661965)(https://gitee.com/bellacaoyh/pics/raw/master/img/202306051050652.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2FqzT1pV-1685934661966)(assets/1627019887718177.png)]

Biological Test Results部分展示药物活性信息。

  • 以结构式进行检索

点击Draw Structure进入检索界面,以检索阿司匹林为例,输入其smiles表达式(CC(=O)OC1=CC=CC=C1C(=O)O),回车后自动绘制结构图。检索结果包括同一性、相似性、子结构和上层结构,进入各化合物详情页面,内容基本与前文类似。

image-20230509162105825

image-20230509164338053

截屏2023-05-09 16.44.22

数据打包下载

官方下载链接

PubChem PUG REST

官网API说明

构建 PUG REST 的基本单元是 PubChem 标识符,它具有三种类型——物质的 SID、化合物的 CID 和化验的 AID。使用这些标识符的该服务的概念框架是由三部分组成的请求:

  • 输入——即我们在谈论什么标识符;
  • 操作——如何处理这些标识符&
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值