Nanopore测序在基因组 de novo中的应用

Nanopore测序在基因组 de novo中的应用

自1977年第一代sanger测序问世来,经过几十年的发展,测序技术得到了极大的发展。

从第一代测序到第二代测序再到第三代测序,测序技术的每一次变革都对基因组学的研究产生了巨大的推动作用。

利用第一代测序技术人类完成了拟南芥、线虫、果蝇等模式物种的基因组测序;

第二代测序使得几百个动植物基因组完成了测序,但是第二代测序读长较短,无法跨越基因组中的高重复、高杂合区域,所以用二代测序完成的物种基因组组装质量大都不是很高,甚至一些复杂的物种用二代测序难以获得基因组序列。

而近几年兴起的三代测序,具有读长长的特点,能够有效解决二代测序的组装难题,对动植物基因组de novo测序带来了很大的转机。

目前最广泛应用的三代测序是PacBio三代单分子荧光测序和Nanopore单分子纳米孔测序。三代Nanopore测序平台虽然兴起的时间不长,但因其具有便携性、测序成本低、测序读长长等特点,近年来在基因组组装上可谓大放异彩,下面小编就带大家看下Nanopore测序在几个物种de novo上的应用。

1、拟南芥基因组

第一个拟南芥基因组(Col-0)是通过sanger法测序于2000年完成的,随后经过完善,成为拟南芥乃至真核生物基因组的“金标准”。但是其最新组装版本中依然包含29个大的没有组装的区域,有117个gaps,缺失25Mb的重复序列。

方法:

使用MinION对拟南芥KBS-Mac-74进行测序,并对高质量的DNA进行了1个flow cell的测序,共产生了3.4G的序列,reads的平均读长为11.4Kb,其中有4条reads长度超过200Kb,14条长度超过100Kb,2317条长度超过50Kb。使用Canu和minimap/miniasm组装raw ONT reads,并与使用Falcon对PacBio数据组装的结果进行了比较。使用ONTmin组装的序列长度最短为110.9Mb,contigs数目最少(62),N50居第二(11.5Mb),单个contig最长(13.8Mb)。

之后,使用3轮racon 和1轮pilon进行polish,发现racon显著提高了序列的总长,并将N50长度提升到12.3Mb,提高了序列的质量。

采用265个光学基因组图谱,评估修正ONT组装序列质量。最终将ONTmin组装的序列由115.9Mb提升到了118.4Mb,并将FP/FN比值从0.33/0.12降到0.01/0.04。通过进一步的分析发现polish后的序列质量和连续性与使用PacBio数据组装的结果相当。

2、高粱基因组

高粱,是一种重要的经济作物,具有极强的干旱和高温适应性。高粱基因组大小约为730Mb,比玉米(~2.3Gb)和大豆(~1.2Gb)等作物基因组小,重复序列约为61%,且含有大量的转座子。同时之前用sanger法测序获得了其基因组序列(BTx623)。这也成为基于ONT 组装质量评估的有利资源。

使用高粱Tx430提取高质量DNA,构建文库,MinION测序,共产生了33.5Gb数据,最长read长767K。对序列采用Canu纠错后用Smartdenovo进行组装,经过组装及2轮Pilon polishing后,最终组装基因组为671.8Mb,contig N50为~3Mb,含有723个contig。其中最长的400条contigs长651.3Mb,占基因组序列的97%

将Tx430的Illumina数据与ONT contig比对,通过唯一比对的Illumina reads评估ONT组装的准确性。结果显示唯一比对的reads为92.94%。经过几轮Pilon polishing后,唯一比对的Illumina reads比例提升到了99.62%。

采用BioNano DLS构建了79个高粱Tx430的图谱,长度达732.1Mb,其中32个图谱占BTx623总长度的99.5%。利用DLS光学图谱与723个contigs混合组装以改善组装质量,极大地提高了组装结果的完整性,最终得到29条scaffolds长度为661.06Mb,N50由3Mb提升到了33.35Mb,并实现将序列组装到染色体水平。具体结果见下表。通过将这29条scaffolds比对到高粱V3.0.1基因组上评估混合组装的完整性(见图3)。

3、菊花基因组

菊科植物大约含24000到35000 个物种,具有非常高的植物多样性,占整个被子植物的10%左右。菊属是一个非常大的植物分类单位,包括菊组和苞叶组两大分支。菊属植物染色体结构复杂,包含从2n=18 到8n=72之间的各种染色体组结构。菊花是中国的传统名花之一,具有极大的观赏价值;同时也是重要的健康食品和中草药,具有很大的经济价值。菊花基因组大约为3.07Gb ,杂合度和重复序列含量都高,属于复杂基因组,采用二代Illumina测序很难获得基因组序列。而Nanopore测序能够获得超长的序列长度,这些长序列比基因组中大部分的重复序列长度要长,从而能够有效组装基因组中的重复序列。本研究利用Nanopore测序数据和二代Illumina数据混合组装,得到了菊花的基因组序列。菊花基因组测序对于揭示菊属物种的起源进化及物种多样性具有重要意义。

采用Nanopore 进行测序,共得到了39个flow cells,产生了570条单分子的reads(平均长度为17.7Kb),总数据量为105.2Gb。采用99.5Gb 数据用于组装,并使用362.3Gb 的Illumina短读长数据对ONT数据进行较正并混合组装,最终组装得到了24,051个congtigs,N50为130.7Kb,序列总长度为2.53Gb,占预估基因组大小的82%。 鉴定到了56,870个蛋白编码基因。进行重复序列注释发现菊花基因组中重复序列占69.6%,其中长末端重复反转录转座子最多,LTR/Copia占据基因组的25.4% ,其次是LTR/Gypsy repeats(21.5%) 。

随后进行了比较基因组学的分析,发现菊花在进化过程中发生了多次的全基因组复制事件;近期复制事件可能导致了与花发育和重要药效成分合成相关基因的扩张。菊花基因组的破译将极大地推动药用植物基因组研究的进程,是本草基因组学研究的一项重要突破。

以上就是Nanopore 测序仪在几个物种de novo中的应用,可以看到无论是像拟南芥这样的简单基因组,还是像菊花这样的复杂基因组,用Nanopore 测序数据进行组装都有非常不错的结果,相信随着试剂的升级、软件的更新等,Nanopore 测序会在基因组测序上发挥更大的作用,极大地推动组学的发展。

参考文献:

1.Michael T P , Jupe F , Bemm F , et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell [J]. Nature Communications, 2018, 9(1):541.

2.Lin HN, May G, et al. A chromosome-scale assembly of the sorghum genome using nanopore sequencing and optical mapping [J]. Nature Communications, 2018 Nov 19;9(1):4844

3.Song C , Liu Y , Song A , et al. The Chrysanthemum nankingense Genome Provides Insights into the Evolution and Diversification of Chrysanthemum Flowers and Medicinal Traits[J]. Molecular Plant, 2018.

首赞

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值