目录
专著
Data Mining Techniques for the Life Sciences
Data Mining Techniques for the Life Sciences (DOI: 10.1007/978-1-60327-241-4)
Data Mining Techniques for the Life Sciences (DOI: 10.1007/978-1-4939-3572-7)
Cited as:
参见网页版各章节的 cite as
该图书属于 Methods in Molecular Biology 丛书。截至2021年7月,该丛书已出版2323本,涉及生物学与生物医学各类主题。
For over 35 years, biological scientists have come to rely on the research protocols and methodologies in the critically acclaimed Methods in Molecular Biology series. The series was the first to introduce the step-by-step protocols approach that has become the standard in all biomedical protocol publishing. Each protocol is provided in readily-reproducible step-by step fashion, opening with an introductory overview, a list of the materials and reagents needed to complete the experiment, and followed by a detailed procedure that is supported with a helpful notes section offering tips and tricks of the trade as well as troubleshooting advice. These hallmark features were introduced by series editor Dr. John Walker and constitute the key ingredient in each and every volume of the Methods in Molecular Biology series. Tested and trusted, comprehensive and reliable, all protocols from the series are indexed in PubMed.
Data Mining Techniques for the Life Sciences 目前有两版,分别出版于2009年12月和2016年4月,编辑是 Oliviero Carugo 和 Frank Eisenhaber 。
Oliviero Carugo 研究方向为大分子的结构化学,特别强调球状蛋白质三级和四级结构的分析、计算和生物信息学预测;
Frank Eisenhaber 的研究兴趣集中在从生物和医学数据中发现新的生物分子机制以及尚未表征的基因和通路的功能表征。 由于机理理解是生物技术、生物医学和临床应用的驱动力,这项工作促进了各种应用研究。 Frank Eisenhaber 是发现 SET 域甲基转移酶、ATGL、kleisins、许多新的蛋白质域功能(例如在 GPI 脂质锚生物合成途径中)的科学家之一,开发了用于翻译后修饰和亚细胞的准确预测工具定位和组学数据分析算法。
本书分为生命科学相关的数据库、数据技术与数据库应用三部分。
2009年第一版
第一部分 数据库
- 核酸序列与结构数据库
- NCBI的基因组数据库和资源
- 蛋白序列数据库
- 蛋白结构数据库
- 蛋白结构域
- 蛋白的热力学数据库
- 酶数据库
- 生物分子路径数据库
- 蛋白相互作用与复合物数据库
第二部分 数据技术
- 聚类分析的邻近度量
- 聚类准则和算法
- 神经网络
- 支持向量机
- 生物学中的隐马尔可夫模型
第三部分 数据库应用——打标及预测
- ANNOTATOR 软件:基于序列进行功能预测
- 基因从头搜索与比较搜索的计算方法
- 非编码RNA的序列和结构分析
- 构象无序性
- 蛋白二级结构预测
- 蛋白四级结构预测
- 基于氨基酸序列的蛋白后翻译修饰的预测
- 蛋白可结晶性(Protein Crystallizability)
2016版第二版
第一部分 数据库
- NCBI的基因组数据库和资源——更新
- 蛋白结构数据库
- MIntAnt 项目于分子相互作用数据库
- 蛋白热力学数据库应用于理解蛋白突变稳定性与设计稳定突变
- 使用Kbdock分类与探索蛋白结构域相互作用
- 大分子结构的数据挖掘
- 为结构用户提取高质量PDB子集的准则
- 基于同源性为大型蛋白数据集打标
第二部分 数据技术
- 公开数据库中错误蛋白序列结构的辨识和修正
- Improving the Accuracy of Fitted Atomic Models in Cryo-EM Density Maps of Protein Assemblies Using Evolutionary Information from Aligned Homologous Proteins
- MIQS:一个有效的氨基酸替代矩阵的系统探索
- 高通量生物表征的前景与不足
- 使用STAR优化RNA-Seq映射(Mapping)
第三部分 数据库应用——打标及预测
- 预测构象无序性
- 利用底物结合残基的保守性对蛋白激酶进行分类
- 利用广谱-统计的方法揭示DNA序列中的潜在调控结构
- 蛋白可结晶性
- 利用ngs.plot分析和可视化ChIP-Seq和RNA-Seq序列比对结果
- 利用本体论进行数据挖掘
- 宏基因组数据的功能分析
- NGS时代的细菌基因组数据分析
- 预测非同义变异体病理生理学效应的计算方法概述
- 药物-靶标相互作用预测和药物重新定位的推荐技术
- 蛋白质残基接触和预测方法
- 基于蛋白序列的功能预测方法及其在 ANNOTATOR 软件环境中的实现
阅读笔记
1.1 核酸序列数据库
- EMBL/GenBank/DDBJ 分别由欧洲、美国和日本维护的三个数据库,三个数据库保持信息同步。NCBI 提供了最著名的用于搜索数据库的网页界面。
- 数据库的内容来自于全世界不同研究者提交的内容,因此数据质量无法保证。NCBI启动了RefSeq项目用于对基因组和转录组提供高质量的序列和标签。
- 由于不了解分子生物学,因此忽略了对于其它类型的各种核酸数据库的介绍。
1.2 NCBI的基因组数据库和资源
1. 简介
- NCBI 是基因组序列数据的主要公共存储库,收集和维护大量异质数据。 基因组、基因、基因表达、基因变异、基因家族、蛋白质和蛋白质域的数据在 NCBI 网站上与分析、搜索和检索资源集成在一起。 Entrez 是一种基于文本的搜索和检索系统,它提供了一种快速简便的方法来浏览不同的生物数据库。 Customized genomic BLAST 支持针对特定生物体序列数据的特殊集合进行序列相似性搜索,并使用 NCBI 的基因组浏览器 Map Viewer 在基因组环境中查看结果比对。比较基因组分析工具(Comparative genome analysis tools)有助于进一步了解进化过程。
- 介绍了NCBI的数据组织方式,数据之间的关系的建立。实际上,网页上所体现的链接,与数据库中数据的组织样式是对应的。本文主要介绍了三种资源的文本搜索与获取方式:Entrez Genome, Entrez Gneome Project 和 Protein Clusters,并图示了两种其它的获取基因数据的方法。
2. 数据流
- 序列数据分为初级和次级(curated or derived)。如GenBank中保存了原始的提交,而Reference Sequence Collection保存了次级数据。
TPA:experimental: Annotation of sequence data is supported by peer-reviewed wet-lab experimental evidence. (TPA: Third Party Annotation)
TPA:inferential: Annotation of sequence data by inference (where the source molecule or its product(s) have not been the subject of direct experimentation)
TPA:assembly: Assembly or reassembly of sequence data for which the generation, whether it is purely computational or informed by experimentation, has been subject to peer review. Feature annotation is not required to be part of the peer review for this TPA type. (Examples of such assemblies include complete viruses, mitochondria, or named biosynthetic gene clusters)
GenBank: An archival database of primary nucleotide sequences that were directly sequenced by the submitter.
RefSeq: A curated, non-redundant database that includes genomic DNA, transcript (RNA), and protein products, for major organisms. The sequence data are derived from GenBank primary data, and the annotation is computational, from published literature, or from domain experts.
(Retrived from https://www.ncbi.nlm.nih.gov/genbank/tpa/ at 2021.07.16.)
- 数据管理系统包括了 ID 数据库和 IQ 数据库,来处理数据的提交、储存和获取。ID 数据库处理输入的序列,并且以数据子集提供给其它数据库来满足不同服务需求。IQ 数据库储存ID中的序列之间以及序列与其它资源的关系。
The data in ID system are stored in Abstract Syntax Notation (ASN.1) format, a standard descriptive language for describing structured information. NCBI has adopted ASN.1 language to describe the biological sequence and all related information (taxonomical, bibliographical) in a structured way. Many NCBI users think of the GenBank flatfile as the archetypal sequence data format. However, within NCBI and especially within the ID internal data flow system, ASN.1 is considered the original format from which reports such as the GenBank flatfile can be generated. As an object-oriented structured language, ASN.1 is easily transformed to other high-level programming languages such as XML, C, and C++. The NCBI Toolkit provides the converters between the data structures. Entrez display options allow to view the data in various text formats including ASN.1, XML, and GenBank flatfiles.
(For more information, please refer https://www.ncbi.nlm.nih.gov/Structure/asn1.html.)
3. Entrez: 文本搜索与数据获取系统
- Entrez 是 NCBI 用于所有主要的数据库的基于文本的搜索和检索系统,它为生物医学信息提供了组织原则。(简单而言,它为异质数据提供了一个统一的搜索入口,同时将异质数据分类但有关联地组织起来。)
Entrez 节点指的是将数据分组和索引在一起的集合,每个节点包含一些常见常规和格式包括用于 Boolean 查询的术语列表和发布文件(即检索引擎),节点内和节点之间的链接,以及用于列出搜索结果的摘要格式,摘要格式中的每个记录称为 DocSum。在搜索时,每个 Entrez 节点中的搜索独立进行。
- 在 https://www.ncbi.nlm.nih.gov/search/ 中搜索 mouse,查看结果。如下图(2021.07.16),提供了词在33个数据库中的搜索结果。数据库按照类别组织起来,并且包含了搜索结果的数量。
- 该系统的主要目标是可靠的信息存储以及高效的数据获取。同时该系统还在节点内和节点间提供链接,并且提供了外部链接。
节点间的链接包括,如基因组序列与基因组项目之间,序列与文献之间,核酸序列与蛋白序列之间。节点内的链接包括,如序列与序列依据相似性大小关联,文献与文献通过统计词项的频率关联,这种关联呈现在Related Articles上。
- The Entrez Programming Utilities (eUtils) 使用固定的 URL 语法,将一组标准输入参数转换为各种 NCBI 软件组件搜索和检索数据所需的值,并代表了 Entrez 系统数据库的结构化接口。
要访问这些数据,一个软件首先将 eUtils URL 发送到 NCBI,然后检索此访问的结果,然后根据需要处理数据。该软件可以使用任何编程语言,如 Perl、Python、Java 和C++,只要它可以发送 URL 到 eUtils 服务器,并解析 XML 响应。将 eUtil 组件组合到这些应用程序中形成自定义的数据管道是数据操作的强大方法。
学习 eUtils 请参考 https://www.ncbi.nlm.nih.gov/books/NBK25501/
4. 基因组数据库
-
所有物种的初级基因组序列都存档在公共存储库中,这些存储库提供可靠、自由和稳定地访问序列信息。NCBI 提供多种基因组生物学工具和在线资源,包括包含许多相关网站和数据库链接的特定群体(group)和特定生物体(organism)页面。
-
Trace Repositories 指全基因组鸟枪测序(whole genome shotgun sequencing)的结果,相当于测序的原始数据。Trace指random short fragments。如 Trace Archive (Capillary-based sequencing technology);Short Read Archive (parallel sequencing techonology);GenBank,为初级序列库。
-
Entrez 数据库系列包含一个集成信息系统,将生物医学和书目数据的异类信息链接在一起。以下是三个 Entrez 数据库示例,其中包含有关基因组项目、基因组序列和由完整微生物基因组编码的蛋白质序列的信息。
-
Entrez Genome,包含了主要分类组的记录和格式,预先计算的数据和用来辅助搜索的在线工具,其内容包括病毒和有机体的基因组,细菌和真核生物的全基因组,Genome 中的一个条目代表一个复制子(replicon),如染色体、有机体或质粒;可用的工具包括:病毒的全基因组的多比对,GenePlot,TaxPlot,gMap等。
Microbial genome sequencing has come a long way since the first H. influenzae project. As of February 2008 public collection contains more than 600 complete genomes and close to 500 draft genome assemblies.
Query examples:Find all the chromosomes of Haemophilus influenzae
Haemophilus influenzae [organism] AND chromosome[replicon type]
- Entrez Genome Project Database (GenomePrj) 是细胞生物完整和不完整(正在进行中)大规模测序、组装、注释和映射项目的集合。项目由有机体名称(或宏基因组项目名称)、测序中心和测序方法的组合定义。GenomePrj 是 Genome 数据库的伴生数据库(companion database)。
“A project is defined as a collection of INSDC database records originating from a single organization, or from a consortium of coordinated organizations. The collective database records from a project make up a complete genome or metagenome and may contain genomic sequence, EST libraries and any other sequences that contribute to the assembly and annotation of the genome or metagenome. Projects group records either from single organism studies or from metagenomic studies comprising communities of organisms.”
As of January 2008 Genome Project database contains 80 metagenomics project.
Query examples
Find all complete fungal genome projects.
fungi[ORGN] AND complete[SEQSTAT]
Find all projects that correspond to pathogens that can infect humans.
human[HOST]
Find all metagenomic projects
type_environmental[All Fields]
- Entrez Protein Clusters,是从全原核和有机体的参考序列全基因组得到的相关蛋白的集合。所有来自微生物基因组、质粒和叶绿体的蛋白使用 all-against-all BLAST。基于序列比对和专家的考虑,可用做出聚类,并且进行信息标注:蛋白名称、基因名称、描述和文献链接。可以通过 Entrez 文本搜索或序列比对进行搜索。序列搜索使用 Concise Protein BLAST,与每个聚类中随机选择的蛋白进行BLAST比较。
As of January 2008, the database contains 1.4 million proteins that compose 6,043 curated clusters and more than 200,000 automatic clusters.
Query examples
Retrieve all clusters containing the protein beta galactosidase:
beta galactosidase [Protein Name]
Find all clusters associated with Escherichia coli:
Escherichia coli[Organism]
5. 原核基因组数据的分析工具
- gMap, 通过基因组序列相似性比较基因组,用于 Genome 数据库,可视化及分析相关基因组的相似性区域。可以用于多种相似性层面,如跨域的或者仅有不同突变的。
- Genome ProtMap,通过同源蛋白序列(orthologous protein sequence)来比较、展示基因组环境(genome neighborhoods)。展示同一个聚类中的、或具有相同 COG(Cluster of Orthologous Group)的蛋白附近 10kb 的基因环境。
- Concise BLAST,使用 BLAST engine 在蛋白聚类数据集中进行蛋白或核酸搜索。在种(genus)水平上选择在每个聚类中选择一个代表性的序列。
6. 真核生物数据浏览
- Map Viewer (目前已被 Genome Data Viewer 替代)。主要是不知道要用来干嘛。在基因组里找基因么?
https://www.ncbi.nlm.nih.gov/genome/gdv/
NCBI’s Genome Data Viewer - Getting Started (Oct 27, 2017)
https://www.youtube.com/watch?v=iPSq0VfU19c (介绍很简略,还是没懂)
7. 通过序列相似性进行搜索(BLAST)
- 包括生物特异的基因组BLAST,多生物基因组BLAST等。
8. 基因组数据的FTP资源
- 通过FTP可以获取 genbank,Genomes,RefSeq 和 Clusters。
9. 总结
1.3
完蛋,写的1.3没有保存。。。(2021-07-16)
笔记
- 感觉读这些资料类似于生信启蒙。
- 开发者的介绍文章,注重展现数据组织的内在逻辑;而作为应用者,在写文章介绍数据库时,需关注接口以及其内容是否可用满足特定的需求。(因为对于组织细节永远不可能比开发者知道的更详细。)
- 序列上的生物意义,也就是(重读)反映在序列本身的相似性和基因组环境的相似性上。
- 确实需要生信启蒙:
(1) 获取序列及元数据:1. 数据库的访问 2. 序列数据的预处理,精炼
(2) 获取结构及元数据
(3) 利用序列或结构来获取特征及预测性质
(4) 化学数据库的访问与化学信息学