写在开头
总所周知,科研是基于数据的,数据是基础也同样是目的.但如何全面且详细地回顾和收集世界各地地往期工作就是困扰诸多科研工作的难题.但随着大量公开且庞大数据库的出现,似乎在为我们登上巨人的肩膀铸造了电梯.今天就以个人经验总结了一下如何搭乘这一部电梯.如有不足之处也请大家在评论区补充,感谢~
本文章全程采用Poly [ADP-ribose] polymerase 1(parp-1)蛋白作为例子进行展示
1.靶点信息数据收集
1.1 uniprot
按照其官网上的说法:
The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information.
作为一个靶点序列以及功能相关信息的数据库uniport做到了极致.当我们搜索parp-1.可以得到如下信息:
可以看到,UNIPROT根据物种将parp-1进行了分类,记住你所需要的uniprot号,点进去看一下:
其中包括了靶点的功能,序列,结构,反应,类似蛋白,所属家族等等信息,对我们进一步了解一个靶点是相当重要的,但在这里不加以赘述
2. 生物实验数据收集
2.1 PUCHEM
链接地址:https://pubchem.ncbi.nlm.nih.gov/
PUCHEM由美国国立卫生院主持,技术由美国生物技术中心提供,可以说是当前最大最全的免费化学信息库:
其中由超过1个亿的化合物信息以及2.7亿的生物实验信息.我们在其中查询PARP-1:
可以看到有2378个相关实验.如下图所示点击downloa和submit bioassay data only下载实验数据:
下载实验结果如图所示:
可以看到并没有相关的化合物结构信息,可以参照我的下两篇博客下载:
1.如何使用pubchem的bulk download功能
2.SID或者CID下载PUBCHEM数据库的smile信息(总结版)
2.2 Chembl
链接地址:https://www.ebi.ac.uk/chembl
这个网站的数据量要少于puchem,拥有270万个化合物,以及110万个生物实验,但牛逼就牛逼在什么地方呢.网站采用的是手工收集的方式,只收集有可能成药的靶点以及生物活性数据.这就使得其上的数据对于药物开发来说,其数据的质量就相当高.
在pubchem搜索parp-1,获得了513个相关实验.点击右上角的下载即可获取实验的相关表述与ID
如果像获取到具体的数据源,需要使用到chembl的api接口,详细请看下面的文章
如何依照靶点名称,找到chembl数据库中的相关实验数据
共获取到的5079个数据,数据结构如下所示:
2.3 ExCAPE DB
链接地址:https://solr.ideaconsult.net/search/excape/
这个数据库是近几年才新兴出现的,现有数据量将近一百万,但是他非常牛逼的一点就是.真的对用户友好!!! 超级友好,哪怕完全不懂计算机的人也会用,简单便捷到令人发指
搜索parp1,结果如下,共1639条然后,点击下载即可:
数据结构如下
2.4 BindingDB
链接地址https://www.bindingdb.org/bind/index.jsp
bindingDB包括近100万个化合物,以及8527个蛋白靶点.
在网站搜索parp1,可以看到共有38个相关实验.
同样,数据的获取需要用到api.其api的核心是前面提到的uniprot网站的ID号.如果想获取数据比较全,就把所有相关物种的都收集进去即可.但对我而言一般是收集人和老鼠的即可(其他数据量太少)
http://bindingdb.org/axis2/services/BDBService/getLigandsByUniprots?uniprot={UNIPROTid1,id2,…}&cutoff={1000} >&code=[012]&response=application/json
需要给出相关uniport号,以及输出的类型(默认为xml,可改为json),cutoff=是指活性值截断.
针对parp1:
http://bindingdb.org/axis2/services/BDBService/getLigandsByUniprots?uniprot={P09874,P11103,P27008,Q9R152,P18493,P31669,P26446,Q08824} &code=[012]&response=application/json
详细如何爬取可以看我如下文章
如何根据uniports号,爬取bindingDB的活性实验数据
共爬取到5287条数据:
2.5 汇总数据
由于每个数据库获取到的文件格式不一样,建议将其汇总成统一格式.但是每个人需求不一样.所以不加赘述了.
如果嫌麻烦可以看我下面这篇文章,也给了相应的代码
汇总药用数据库(Pubchem,bingdingDB,Chembl,ExcapeDB)数据
3. 临床实验数据收集
本来找临床试验数据是一个非常麻烦的事,药智网研发中心的总经理李天泉先生总结有如下几个途径:
筛选途径1:WHO临床试验登记平台检索:缺陷就是定位不精准;缺乏临床阶段筛选方法,不能排除“非新药研发项目”。
筛选途径2. 药智网全球临床试验数据库:收录了全球各个国家临床试验注册中心信息,对临床试验进行了试验分期,可针对研究类型、疾病领域、干预措施、试验结果、国家等重要信息进行筛选。
筛选途径3. 重点跟踪特定公司:可能会遇到信息不全,查找筛选麻烦,只能定向关注一家公司。
筛选途径4. 通过其他渠道获取在研新药信息:主要通过文献/报道、各种数据库等获得。
但无论怎么说,都是一个比较麻烦并且难以全面的过程,但聪明的人已经发现了商机:
介绍一个数据库戊戌数据,由国人开发.非常好用.暂时是免费使用的:
连接地址:https://www.wuxuwang.com/
搜索parp1:
可以看到共收集到了18条临床实验的数据,可能不太全.但架不住他方便好使还免费啊!!
4. 上市药物数据收集
drugbank 是现今市面上最全的药物数据库.查上市药物仅此一家即可
搜索parp-1靶点数据,可以看到旗下,总共拥有4个已经上市和机制明确的化合物.数据库给出了一些在研的或者已经批准的但机制不明确的化合物.但这些都不在上市药物的范围.
5. 总结
数据收集是一个斑驳且繁琐的过程,如果有不足之处.欢迎大家指点