PubChem数据库入门:关键词检索等核心功能精讲

PubChem数据库属于NCBI旗下,截至2024年6月,该数据库收录11800万种化合物结构信息(Compounds子库),31800万种用户上传的化合物数据(Substance子库),29500万种实验结果或文献支持的化合物生物活性数据(BioAssay子库),其中还包含4100万篇相关文献和5100万相关专利,以及113242个靶基因、247611个靶蛋白和241163条通路信息,引用数据来源总计995个。PubChem数据库包含大量化合结构信息、理化性质及生物活性、毒性和安全性数据,并提供详细的文献或专利支持,为生物医药与生物化学交叉领域的科研人员所青睐。

网址:https://pubchem.ncbi.nlm.nih.gov/

查看所有的参考来源,可在主页点击‘Explore Data Sources’,即可查看所有来源信息。

数据库核心功能

PubChem数据库数据检索功能有三种方式:关键词检索、结构式检索和批量检索。

1、关键词检索

在主页检索框输入关键词进行快速检索,检索词支持输入化合物名称、化学式、CAS号、SMELE码和InchI表达式、基因名和Covid-19专题检索功能。

下面以阿司匹林aspirin为例,检索得到结果:一条最佳检索的结果(阿司匹林单体数据),106条化合物结构信息(包括阿司匹林单体和混合药物数据),835条底物数据,39条通路数据,2246条药物活性数据,7万多条文献和专利。

点击‘best match’下的第一条数据,详情页中有aspirin信息概览,包括PubChem CID、化合物结构、化学安全分类、分子式、同义词、分子量和数据更新时间,并提供aspirin药理功能注释和肝毒性信息,提供NCI Thesaurus、LiverTox和DrugBank数据库链接。右侧栏为该页面所展示的信息目录。

接下来对主要的子目录做一个简单的说明:

Structures

展示aspirin的2D、3D和晶体结构,右上角可下载结构信息文件或保存图片,可在数据库检索结构类似的化合物。

Names and Identifiers

展示aspirin的各种表达式、别名和标识符。主要的信息有:

  • IUPAC Name为2-乙酰氧基苯甲酸(2-acetyloxybenzoic acid)
  • InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)
  • SMILES:CC(=O)OC1=CC=CC=C1C(=O)O
  • 提供CAS、EC、ICSC和UNII等数据库ID,以及各种同义词。

若想了解具体的内容,可点击右侧目录定位查看。

Chemical and Physical Properties

展示aspirin理化性质,比如分子量、溶解度等内容,其中有实验和预测的结果。

Spectral Information

展示aspirin的光谱信息,包括核磁共振谱、质谱、红外紫外光谱和Raman光谱等。

Related Records

可查看aspirin相关研究进展,

Chemical Vendors

提供aspirin供应商信息(包含61个供应来源)。

Drug and Medication Information

展示aspirin的临床信息,包括适应症、WHO指南信息、药物成分、临床试验和某些药物特性及使用注意事项等信息。

Pharmacology and Biochemistry

展示aspirin的药理学性质,ADEM药代动力学和药物作用机制等。

Toxicity

展示aspirin的毒理学特征,包括不同物种的肝毒性、致癌性、中毒症状及急救措施。

Associated Disorders and Diseases

展示来自CTD数据库的aspirin相关疾病信息。

Literature

展示aspirin相关文献(还单独列出了化合物的与基因和疾病相关的文献)。

Biomolecular Interactions and Pathways

展示aspirin的靶基因、靶蛋白及3D结构、通路、药物相互作用和药物食物相互作用等信息。

Biological Test Results

展示药物活性信息。

2、结构式进行检索

在首页点击Draw Structure进入检索界面,以检索阿司匹林为例,绘制结构图(如果不太会用,可以点击下方Help查看绘图指南)。检索结果包括同一性、相似性、子结构和上层结构,进入各化合物详情页面,得到的结果内容基本与关键词检索结果类似。

3、批量检索

在首页点击UPLOAD ID LIST进入检索界面,下载示例数据,选择数据类型,上传示例数据文件,点击Search Pubchem With This List,得到检索结果,右侧可批量下载。

元素周期表

首页点击Periodic Table 进入元素周期表,可整体上浏览各元素信息,点击任意元素查看详情。

总的来说:

PubChem是美国国立卫生研究院(NIH)下属的国立生物技术信息中心(NCBI)维护的一个免费的化学结构数据库,它包含了大量的化学物质和相关生物活性数据。PubChem数据库拥有以下特点:

  • 免费和公开:PubChem是一个免费的资源,任何人都可以访问和下载数据,这促进了科学研究和教育。
  • 数据量巨大:PubChem包含数以百万计的化合物结构和相关的生物活性数据,是一个庞大的化学信息资源。
  • 标准化数据:PubChem提供了标准化的化学结构数据,有助于研究者进行一致性和可比较性分析。
  • 生物活性数据:除了化学结构信息,PubChem还提供了化合物的生物活性数据,如半数抑制浓度(IC50)等。
  • 搜索和分析工具:PubChem提供了强大的搜索工具和分析功能,帮助用户查找和分析化学结构。
  • 结构多样性:PubChem数据库中化合物的结构多样,覆盖了广泛的化学类型和类别。
  • 更新频率高:PubChem定期更新,包括新增化合物和更新现有数据。
  • 与其他数据库的链接:PubChem与NCBI的其他数据库(如Gene、Protein等)以及外部数据库(如ChEMBL、DrugBank等)有链接,方便进行交叉查询。

然而对于非专业人士来说,目前还有一些问题需要解决。PubChem的搜索选项可能过于复杂,需要一定的学习成本。PubChem的用户界面不够直观或简洁。对于某些特定的化合物或研究领域,PubChem提供的数据可能不够详细或深入。在查询化合物参与的反应数据时,不能清晰明确的展示结果。

实际上,在使用过程中,我发现了款国产化学数据库MolAid化合物检索及智能合成一体化数字平台,我觉得它可能更符合我们的需求。

MolAid 不但拥有PubChem核心功能(关键词检索和结构检索),还支持谱图检索。同时还收录了海量的化合物信息,包括了化合物的物化性质、ADMET、反应信息、晶体数据、谱图信息、SDS等内容。

网址:MolAid-化合物检索及智能合成一体化数字平台icon-default.png?t=N7T8https://rxn.molaid.com/

MolAid平台的数据情况如下:

化合物数据:收录了1.6亿个化合物并且数量持续更新增长

反应数据:拥有5000万条反应数据,搭建人机结合反应提取工程,反应量不断增长,为用户提供高质量反应信息。

谱图数据:20万张真实实验谱图(氢谱、碳谱、质谱、拉曼、红外)。

晶体数据:100万有机晶体数据,可查看晶体晶胞参数以及参考文献。

商品数据库:740万条商品信息,涵盖各大知名供应商。

MolAid平台中文操作界面,使用起来非常容易上手!

  • 16
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值