简单粗暴,微生物生态研究中常用数据库简介--转载

简单粗暴,微生物生态研究中常用数据库简介

                                  

    微生物生态(MicrobialEcology),又名环境微生物(Environmental Microbiology),是研究微生物之间及其与环境之间相互关系的学科。从生物角度,其研究对象主要有真核微生物(Eukaryotes,如原生生物、真菌等)、原核微生物(Prokaryotes,细菌和古菌)和病毒(Viruses)[1]

    随着高通量测序的发展,我们可以很容易地从环境中获得大量微生物marker基因序列,如原核的16S rDNA序列,真核的18S rDNA序列、ITS(ribosomalinternal transcribed spacer)序列等。拿到序列后,面临的一个重要问题就是:选择什么数据库进行比对才能得到较好的分类鉴定结果呢?其实针对每一类生物的主要marker序列都有相应的数据库以方便比对鉴定。今天卢瑟菌就和大家简单聊一下微生物生态研究中那些个常用的marker基因序列数据库。

 

rRNA基因数据库

1. RDP  
                           

简介:

    RDP数据库全称“RibosomalDatabase Project”,该数据库提供质控、比对、注释的细菌、古菌16S rRNA基因真菌28S rRNA基因序列。目前其数据库最新版本为RDP Release 11.5,于2016年9月30日更新。更新后的数据库包含3,356,809条比对、注释的原核16S rRNA基因序列和125,525条真菌28S rRNA基因序列。

    RDP是目前较常用的rRNA基因高通量测序后作为比对、注释的参考数据库。此外,还可用于平时菌种鉴定时,对少量rRNA基因测序后的物种进行分类鉴定,此时主要用其Classifier功能(http://rdp.cme.msu.edu/classifier/classifier.jsp),可非常方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各水平相应的置信度。

主页:

    http://rdp.cme.msu.edu/index.jsp

 

2. SILVA 

简介:

    SILVA一词起源于拉丁文silva(意为forest),它是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库,其数据库涵盖了原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S18SrRNA)和大亚基rRNA基因序列(简称LSU,即23S28SrRNA)。目前其最新数据库版本为SILVA SSU andLSU databases 128,更新时间为2016年9月29日,最新版本数据库包含的数据信息见下表1所示。

1 SILVA SSU andLSU databases 128数据库基本参数信息

 

SSU参考序列

SSU非冗余参考序列

LSU总序列

LSU参考序列

版本

128

128

128

128

总序列

1,922,213

645,151

735,238

154,297

细菌

1,719,541

552,377

176,194

130,965

古菌

64,390

24,315

1528

1271

真核

140,020

68,996

557,769

22,105

可培养

36,747

36,747

24,664

8232

模式株

22,334

22,334

5809

4675

    因为SILVA数据库更新比较及时,因此是目前rRNA基因高通量测序后最常选用的参考数据库之一。此外,与RDP类似,SILVA也可被用于平时菌种鉴定时,对少量rRNA基因测序后的物种进行分类鉴定,此时主要用其SINA Alignment Service功能(https://www.arb-silva.de/aligner/),可非常方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各分类水平相应的置信度。

主页:

   https://www.arb-silva.de/

 

 

3. Greengenes 

简介:

    Greengenes是专门针对细菌、古菌16S rRNA基因的数据库,相比前面提到的RDP和SILVA数据库,该数据库更新速度较慢,目前更新停留在2013年5月更新的gg_13_5版本(可在该网址下载:http://greengenes.secondgenome.com/downloads/database/13_5),目前较常用于16S rRNA基因高通量测序后进行嵌合体去除的参比数据库。目前,比较火的一个分析——PICRUST,即根据16S rRNA高通量测序结果预测微生物群落功能的分析,也是基于gg_13_5数据库开发的,因此,想做PICRUST分析也必须依托Greengenes的gg_13_5数据库进行比对。

主页:http://greengenes.lbl.gov/

 

 

4. EzBioCloud 

   EzBioCloud是与Greengenes数据库类似,也是专门针对细菌、古菌16SrRNA基因的数据库,但其特点是以可培养的细菌、古菌16S rRNA基因序列为主。该数据库对与2016年10月1日进行了网站更新,其中最常用的功能是通过与该数据库比对,确定某16S rRNA基因序列对应物种在数据库中的近缘可培养/模式种,此时用到的是数据库的Identify功能(http://www.ezbiocloud.net/identify),网站要求应用该功能时需要先通过邮箱注册后方可使用。相比上面提到的RDP、SILVA和Greengenes来说,该数据库较少用于16S高通量测序后的参比数据库。

 

主页:

   http://www.ezbiocloud.net/dashboard

  

 

 

5. PR2

简介:

    PR2(ProtistRibosomal Reference database)数据库是专门针对真核微生物小亚基SSU rRNA(即18SrRNA)基因的数据库。该数据库主要由核编码的原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列。内含子和嵌合体序列已被去除。现PR2主页因技术故障无法登陆,但是数据库一直在更新,最新数据可在https://figshare.com/articles/PR2_rRNA_gene_database/3803709下载。

 

3 PR2数据库(v.1)中在Super-Group物种分类水平上注释的18S rRNA基因序列数

 

6. PhytoREF

简介:

    PhytoREF数据库是专门针对质体(plastid)中16SrRNA基因的数据库。所有陆地、淡水、海洋中的含质体生物16S rRNA基因序列都囊括在该数据库内,包括陆地植物、海洋和淡水大型和微型藻类等的质体

 

主页:

http://phytoref.sb-roscoff.fr/(网友盐酸普鲁卡因修改)

 

7. PFR²

简介:

    浮游有孔虫界(planktonic Foraminifera /Rhizaria)是一类在海洋中广泛存在的浮游原生生物,其在海洋碳循环中起重要作用,且其化石可用以生物年代地层和古气候重建。PFR2是专门针对浮游有孔虫界18SrRNA基因的数据库。目前更新版本为1.0,于2015年1月20日释放,包含3322条高质量的浮游有孔虫界18S rRNA基因序列。

 

主页:

    http://pfr2.sb-roscoff.fr/

 

ITS序列数据库

1. UNITE 

简介:

    ITS(ribosomalinternal transcribed spacer核糖体基因内转录间隔区)是最常用的真菌鉴定及多样性检测的marker基因,UNITE数据库就是专门针对真菌ITS序列的数据库。UNITE常被用于ITS序列高通量测序后对真菌进行分类注释的比对数据库,目前数据库已经更新至版本7.1,更新时间为2016年11月20日,包含8180条高质量ITS参考序列,下载地址为:https://unite.ut.ee/repository.php。当然,UNITE网站也可对单挑ITS序列进行进行在线分类鉴定(https://unite.ut.ee/analysis.php)。

 

主页:

   https://unite.ut.ee/

 

2. ITS2 

简介:

    位于真核生物5.8S和28S rRNA基因之间的ITS2基因常被用于鉴定真核微生物的marker序列。ITS2数据库就是专门针对真核微生物ITS2序列的数据库

 

主页:

    http://its2.bioapps.biozentrum.uni-wuerzburg.de/

 

功能基因数据库

FunGene

简介:

    FunGene(Functional Gene)是RDP延伸的一个针对微生物功能基因序列的数据库。其按照功能分为抗生素抗性(Antibiotic resistances)、植物致病基因(Plant Pathogenicity)、生物地球化学循环(Biogeochemical cycles)、系统进化markerPhylogenetic markers)、生物降解(Biodegradation)、金属循环(Metal Cycling)及其他(Other等七类功能基因。每类都包含几到上百种功能marker基因,可被用于功能marker基因高通量测序后的比对及功能基因引物设计等。

 

主页:

    http://fungene.cme.msu.edu/

 

 

上述只是几个比较常用的数据库,除此之外还有很多新出的,好用的数据库(当然还有我们的最爱NCBI Blast)   

 

 

其实上面提到的每个数据库网站功能都很多样化,今天卢瑟菌只是比较简单地给大家介绍了一下微生物生态研究中常用的数据库有哪些,如果想知道具体每个数据库的强大功能以及使用方法,大家可以给我们留言喔。

 

参考文献

[1]https://en.wikipedia.org/wiki/Microbial_ecology#cite_note-BartonNorthup2011-2

[2]Cole J R, Wang Q, Fish J A, et al. Ribosomal Database Project: data andtools for high throughput rRNA analysis[J]. Nucleic acids research, 2013:gkt1244.

[3]Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene databaseproject: improved data processing and web-based tools[J]. Nucleic acidsresearch, 2013, 41(D1): D590-D596.

[4]Kim O S, Cho Y J, Lee K, et al. Introducing EzTaxon-e: a prokaryotic 16S rRNAgene sequence database with phylotypes that represent uncultured species[J].International journal of systematic and evolutionary microbiology, 2012, 62(3):716-721.

[5]DeSantis T Z, Hugenholtz P, Larsen N, et al. Greengenes, a chimera-checked 16SrRNA gene database and workbench compatible with ARB[J]. Applied andenvironmental microbiology, 2006, 72(7): 5069-5072.

[6]Kõljalg U, Nilsson R H, Abarenkov K, et al. Towards a unified paradigm forsequence‐basedidentification of fungi[J]. Molecular ecology, 2013, 22(21): 5271-5277.

[7]Guillou L, Bachar D, Audic S, et al. The Protist Ribosomal Reference database(PR2): a catalog of unicellular eukaryote small sub-unit rRNA sequences withcurated taxonomy[J]. Nucleic acids research, 2012: gks1160.

[8]Koetschan C, Hackl T, Müller T, et al. ITS2 database IV: interactive taxonsampling for internal transcribed spacer 2 based phylogenies[J]. MolecularPhylogenetics and Evolution, 2012, 63(3): 585-588.

[9]Decelle J, Romac S, Stern R F, et al. PhytoREF: a reference database of theplastidial 16S rRNA gene of photosynthetic eukaryotes with curated taxonomy[J].Molecular ecology resources, 2015, 15(6): 1435-1445.

[10]Morard R, Darling K F, Mahé F, et al. PFR2: a curated database of planktonicforaminifera 18S ribosomal DNA as a resource for studies of plankton ecology,biogeography and evolution[J]. Molecular ecology resources, 2015, 15(6):1472-1485.

[11]Hulo C, De Castro E, Masson P, et al. ViralZone: a knowledge resource tounderstand virus diversity[J]. Nucleic acids research, 2011, 39(suppl 1):D576-D582.

[12]Fish J A, Chai B, Wang Q, et al. FunGene: the functional gene pipeline andrepository[J]. Frontiers in microbiology, 2013, 4: 291.

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: TensorFlow 2.0的设计理念是简单粗暴,旨在提供更加直观、易用的编程体验,让用户更快速地构建、训练和部署机器学习模型。以下是TensorFlow 2.0的简单粗暴特性: 1. 动态图计算:TensorFlow 2.0默认采用动态图计算方式,即使用即定义计算图。这使得用户能够像编写Python代码一样自然地构建和调试模型,无需担心图构建过程的繁琐细节。 2. Keras集成:TensorFlow 2.0将Keras作为其高级神经网络API的标准前端,实现了更加简洁、易懂的模型构建和训练接口。用户无需再额外安装和配置Keras,而且可以直接利用Keras强大的功能,如模型序列化、多种损失函数和优化器等。 3. 切换模式:TensorFlow 2.0提供了一个方便的转换工具,用户可以将TensorFlow 1.x的代码迁移到2.0版本,以享受新的特性,无需重写整个代码。这种平滑迁移的设计使得用户更容易接受新版本并从受益。 4. Eager Execution(即时执行):TensorFlow 2.0的Eager Execution模式使得用户可以逐行执行模型代码并立即返回结果,这有助于快速验证和调试模型,尤其对于初学者来说更容易上手。 5. SavedModel格式:TensorFlow 2.0引入了SavedModel格式作为模型的默认保存格式,该格式具有更好的跨平台和版本控制的兼容性。用户能够更方便地保存和分享自己的模型,同时也能更好地与其他TensorFlow开发者进行模型交流。 总之,TensorFlow 2.0的简单粗暴特性使得机器学习的开发变得更加直观、高效,并能够吸引更多的开发者加入到机器学习的领域。 ### 回答2: TensorFlow 2.0是一种简单粗暴的机器学习框架。相较于以往版本,2.0在易用性、灵活性和效率方面都有很大的提升。 首先,TensorFlow 2.0引入了eager execution(即即时执行),这意味着我们可以像编写Python代码一样编写和运行TensorFlow操作,而无需定义计算图。这样可以更容易地调试和理解代码,使得开发过程更加直观和高效。 其次,TensorFlow 2.0取消了许多低级API,如tf.Session和tf.placeholder,大大减少了代码的复杂度。取而代之的是一些更高级且易用的API,如tf.keras,它提供了一个简单而且强大的接口来构建神经网络模型。我们可以使用一些简单的函数调用来定义和训练模型,从而减少了样板代码,同时还能保持高度的灵活性。 此外,TensorFlow 2.0还提供了一个称为tf.data的新的高性能数据输入管道。我们可以使用tf.data.Dataset将数据集导入模型,并进行预处理、批处理等操作,以便更好地利用硬件资源,并实现更高效的训练过程。 最后,TensorFlow 2.0充分利用了现代硬件的加速能力,如GPU和TPU。它使用了tf.function装饰器来自动转换函数为高性能的图执行模式,并支持分布式训练,以便在分布式系统上进行大规模的模型训练。 综上所述,TensorFlow 2.0确实是一种简单粗暴的机器学习框架。它简化了开发过程,提高了代码的可读性和可维护性,并利用了现代硬件的优势,从而大大提升了训练效率和性能。无论是初学者还是有经验的开发者,都可以受益于这个强大而易用的框架。 ### 回答3: 简单粗暴的TensorFlow 2.0是一个更新版本的Google开源机器学习框架,旨在让使用变得更加简便。TensorFlow 2.0采用了Eager Execution模式,移除了一些繁琐的操作,与Python的语义更加契合。这使得建立和训练神经网络变得更加直观和容易。 TensorFlow 2.0引入了Keras作为其主要高级API,将其整合为TensorFlow的一部分。Keras提供了丰富而直观的高级API,可以方便地构建各种神经网络模型。通过将Keras集成到TensorFlow,使用者可以轻松地创建、训练和部署深度学习模型。 TensorFlow 2.0还引入了tf.function装饰器,允许将普通Python函数转换为高效的TensorFlow图,加速模型的训练和推理过程。 此外,TensorFlow 2.0对于分布式训练、模型部署和端到端生态系统的支持都有所改进。它提供了更好的工具和接口,使得分布式机器学习变得更加容易。TensorFlow 2.0还支持模型在移动设备、Web和边缘设备上部署,并提供了可拓展的生态系统,包括TensorFlow Hub、TensorBoard和TensorFlow.js等。 总之,简单粗暴的TensorFlow 2.0通过增强开发者的体验和提供更加直观的API,大大简化了神经网络的构建和训练过程。新版本的引入了许多新特性和改进,使得TensorFlow 2.0成为构建高性能、可扩展的机器学习模型的理想选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值