发表期刊
期刊名:PLANT AND CELL PHYSIOLOGY(细胞生物学)
所属分类:SCI期刊,生物类
影响因子和分区:2021年影响因子/JCR分区:4.927/Q2
作者所在机构: 浙江大学作物基因资源省级重点实验室、中国生物市场技术公司
文章名
英文:BnaGVD: A Genomic Variation Database of Rapeseed (Brassica napus)
中文:BnaGVD:甘蓝型油菜基因组变异数据库
一、摘要
油菜是一种典型的多倍体作物,也是世界上最重要的油料作物之一。
随着高通量测序技术的快速发展和测序成本的降低,特定作物的大规模基因组数据已成为可能。
然而,原始序列数据大多保存在国家生物技术信息中心的序列读取档案馆和欧洲核苷酸档案馆中,所有研究人员都可以免费访问该档案馆。应开发用于实际目的的广泛工具,以有效利用这些大型原始数据。
在这里,我们报告了一个基于网络的油菜基因组变异数据库(BnaGVD,http://rapeed.bio cloud.net/home),从中可以参考基因组变异,例如单核苷酸多态性(SNP)和插入/删除(INDEL)在全世界范围内收集的油菜种质。
目前发布的BnaGVD包含34591899个高质量SNP和12281923个高质量INDEL,并提供搜索工具来检索1007份全球油菜种质的基因组变异和基因注释。
我们实现了各种内置工具(例如BnaGWAS、BnaPCA和BnaStructure),以帮助用户进行深入分析。我们推荐这一网络资源,以加速功能基因组学的研究和油菜育种分子标记的筛选。
关键字
BnaGVD•数据库•基因组变异•油菜
二、前言
油菜(Brassica napus L.)是一种重要的经济作物,主要用作食用油和富含蛋白质的牲畜饲料。
甘蓝型油菜是一种新近形成的异源多倍体物种,形成于过去7500年前,通过两个二倍体祖先,即油菜(AA)(n¼10)和甘蓝(CC)(n¼9)之间的种间杂交(Chalhoub et al.2014)。
高通量测序技术的出现和甘蓝型油菜参考基因组的可用性(Chalhoub et al.2014)为重要数量性状基因座的基因组定位、遗传多样性基础基因的识别和起源性质的确定提供了新的见解(Lu et al.2019,Wu et al.2019)。
在过去的几十年中,通过测序技术的快速发展和成本的降低,大量基因型数据以指数形式生成。
高质量的参考基因组也已可用,从而以前所未有的速度促进基因组变异数据的改进,并促进群体遗传学的系统研究,包括全基因组关联研究(GWASs)(Hayes 2013)、进化研究(Wang et al.2018)和比较基因组学(An et al.2019)。
单核苷酸多态性(SNP)和插入/删除(INDEL)已广泛应用于油菜和其他作物的育种计划中。
生物学研究人员,尤其是作物育种人员,在识别功能基因方面受益于SNP,例如,与水稻氮利用效率相关的关键基因(Tang et al.2019)、玉米肥力恢复基因(Jaqueth et al.2020)和提高油菜种子油含量的基因(Karunarathna et al.2020)。
在识别关键功能基因的基础上,可以进一步开展针对这些基因的分子育种和遗传编辑。GWAS等方法揭示了单核苷酸多态性和其他类型的遗传变异,这些方法有效地将重要农艺性状和品质性状与其在各种大田作物中的因果基因座相关联,如水稻(Yano et al.2016)、玉米(Wang et al.2020)、大豆(Zhou et al.2015)、油菜籽(Lu et al.2019、Wu et al.2019)和棉花(Ma et al.2018)。
已通过下一代测序(NGS)技术生成了大型油菜基因组变异数据集(Wu等人,2019年)。
随着大量数据的可用性,出现了一个主要障碍,即如何与油菜研究社区有效整合和共享这些数据,以加快油菜育种。
从大型NGS数据集中识别关键SNP和INDEL也很费力,需要大量的计算资源;
因此,当前的SNP和InDel数据集对用户并不友好。
已经开发了多个基因组变异数据库,包括高粱的SorGSD(Luo等人,2016年)、水稻的RiceVarMap(Zhao等人,2015年)、桃子的PeachVar DB(Cirili等人,2018年)、柑橘的CitGVD(Li等人,2020年)和油菜的BnaSNPDB(Yan等人,2020年)。
在这里,我们建立了BnaGVD,一个油菜基因组的综合数据库变体,为油菜研究提供公开和免费的数据服务。
BnaGVD包含来自世界39个国家的1007份油菜种质资源,以及5559254、5526961和28509014个高质量SNP和1858671、1919465和8503787个高质量指数,通过将读数映射到Darmor bzh(Chalhoub et al.2014)、Tapidor(Bayer et al.2017)和NY7(Zou et al.2019)参考基因组。
BnaGVD包括功能基因注释和几个用于深入分析的工具,即BnaGWAS用于基于内置表型数据或用户上传的数据进行全基因组关联映射,BnaPCA用于基于给定样本中的SNP可视化遗传多样性,BnaStructure用于基于给定样本中的SNP和PCR引物设计可视化群体结构,以及用于检测基因组变异和基因的GBrowse。
这些资源和分析工具将免费提供给油菜研究界。该网络资源还将帮助研究人员专注于油菜的群体遗传学、功能基因组学和分子育种。
三、结果
1、数据库内容和访问
从先前发布的NGS数据(Wu et al.2019)中收集所有原始配对末端读数,并使用内部管道进行处理(图1)(参见材料和方法)。
BnaGVD数据库包含四个功能部分,即“浏览”、“搜索”、“工具”和“下载”。
它还有一个“帮助”部分,包含详细的介绍信息和用户教程。
这些内置的功能模块不仅可以独立工作,还可以在单个工作流中相互协作。
2、浏览
3、搜索
4、工具
5、下载
6、帮助
四、讨论和结论
这个数据库能干什么
生物学研究在很大程度上得益于具有不同应用的各种数据库。
在以前的数据库(BnSNPDB)中,我们通过检索1007份油菜种质的SNP,提供了绘制连锁不平衡热图(LDheatmap)、SNP分布图和系统发育树的工具。
在本文中,我们开发了新的在线工具,用于同一油菜群体中的GWAS、主成分分析(PCA)和群体结构分析。
除了单核苷酸多态性外,我们还提供了检索INDEL用于遗传多态性分析的方法。
该数据库可以作为基因组变异分析的重要在线工具,补充我们之前提供的内容(Yan等人,2020年)。
BnaGVD中储存的油菜基因组变异来自世界上最大的油菜种质资源,也是最全面的。
该数据库整合了来自39个国家的1007份世界油菜种质资源,34591899个高质量SNP和12281923个高质量指数。
BNAGVD有助于未来的油菜研究,包括群体基因组学、重要农艺性状相关关键基因的挖掘和全基因组分子标记辅助育种。
前人所做的研究还有哪些不完善的地方?
之前发布的数据库,如高粱的SorGSD(Luo等人,2016),主要集中于存储基因组变异(SNP /索引)。
已经建立了几个与芸薹属作物相关的数据库,如CropSNPdb(Scheben et al.2019),以存储和检索SNP。
CropSNPdb是芸薹属作物和六倍体面包小麦的SNP阵列数据数据库,对于油菜的分子育种至关重要。
然而,CropSNPdb只提供了一个简单的查询接口,SNP数组数据是由Brassica 60K数组生成的,而不是通过NGS技术生成的,只包含459份油菜种质。
相比之下,BnaGVD是使用内置工具和管道设计的,例如用于GWAS的BnaGWAS、用于基于用户提供的给定样本中的SNP进行遗传多样性可视化的BnaPCA和用于种群结构可视化的BnaStructure。
因此,BnaGVD可用于提取和浏览有关基因组变异的信息,并执行GWAS、基因注释和基因组变异可视化。
我们还构建了一个包含300份材料的核心种质库,代表了1007个油菜基因组的遗传多样性,用于后续油菜研究(Xuan et al.2020)。
我们还与大多数研究群体合作,共享核心种质资源,极大地提高了重要农艺性状相关关键基因的挖掘,促进了分子标记的筛选。因此,我们可以加速油菜育种。
未来还会做什么?
随着测序成本的迅速降低,更多的基因组将被测序和组装,基因组变异不再局限于SNP /索引。
在下一版本中,大量油菜个体、参考基因组、表型和遗传结构变异,包括拷贝数变异、结构变异和转座子,将整合到BnaGVD中。
综上所述,我们构建了油菜基因组变异数据库(BnaGVD)作为生物信息学分析的平台,包括基因组变异的检测、基因注释以及SNP和GWAS结果的可视化。
我们还与国内外研究界合作,共享核心种质资源,推动油菜遗传改良分子标记的筛选。
五、材料和方法
1、数据源和处理
数据源
从先前发布的NGS数据(Wu et al.2019)中获得的所有原始配对末端读取数据都是通过内部管道收集和处理的。
数据处理
。。。。
2、数据库建设
BnaGVD数据库建立在J2EE框架的基础上,MySQL作为数据库引擎。
Web用户界面是用JSP、HTML5和CSS3开发的。
BnaGVD integrated工具,如BnaGWAS、BnaPCA和BnaStructure,使用R(v3.6.0)和Perl(v3.5.6)编译,并在Linux环境中运行。
GBrowse被用于基于染色体的基因组变异和基因可视化。
引物设计(v4.1.0)用于检索甘蓝型油菜SNP、INDEL和基因的引物。
BLAST(v2.2.31)用于在BnaGVD中搜索输入序列的正对数或旁对数。
六、补充数据
七、资助
浙江省重点研究项目(2021C02057)和江苏省现代作物生产协同创新中心
八、公开
九、参考文献
相关单词
rapeseed:油菜籽
Brassica napus:甘蓝型油菜
InDels:n. 基因序列发生的插入或缺失改变
Genomic Variation Database:基因组变异数据库
high-throughput sequencing technologies:高通量测序技术
genomic data:基因组数据
raw sequence data:原始序列数据
he National Center of Biotechnology Information:国家生物技术信息中心
European Nucleotide Archive:欧洲核苷酸档案馆
web-based:adj. 基于网络的
rapeseed genomic variation database:油菜基因组变异数据库
genomic variations:基因组变异
single-nucleotide polymorphisms (SNPs):单核苷酸多态性(SNP)
insertions/ deletions (InDels):插入\删除(索引)
genomic variations and gene annotations:基因组变异和基因注释
rapeseed germplasm:油菜种质
web resource:网络资源
functional genomics:功能基因组学
molecular markers:分子标记物
rapeseed breeding:油菜育种
Genomic variations:基因组变异
allopolyploid species:异源多倍体物种
interspecific hybridization:种间杂交
napus reference genome:甘蓝型油菜参考基因组
trait loci:性状基因座
genomic localization:基因组定位
genes underlying genetic:遗传基础基因
genotypic data:基因型数据
population genetics:群体遗传学
genomic variation data:基因组变异数据
genome-wide association studies (GWASs):全基因组关联研究(GWASs)
evolutionary studies:进化研究
comparative genomics:比较基因组学
functional genes:功能基因
the nitrogen use efficiency in rice:水稻氮素利用效率
genes for fertility restoration in maize:玉米育性恢复基因
the genes for elevating seed oil content in rapeseed:提高油菜种子含油量的基因
molecular breeding:分子育种
genetic editing:遗传编辑
genetic variability:遗传变异性
agronomic and quality traits:农艺性状和品质性状
maize:黄色的,玉米色的
soybean:大豆;黄豆
next-generation sequencing (NGS) technology:下一代测序(NGS)技术
rapeseed genomic variation datasets:油菜基因组变异数据集
rapeseed research community:油菜研究社区
NGS datasets:NGS数据集
key SNPs and InDels:关键SNP和INDEL
functional gene annotations:功能基因注释
indepth analyses:深入分析
genomewide associations mapping:全基因组关联映射
built-in phenotype data:内置表型数据
visualizing genetic diversity:可视化遗传多样性
visualizing population structure:可视化群体结构
rapeseed research community:油菜研究社区
the population genetics:群体遗传学
functional genomics:功能基因组学
molecular breeding:分子育种
raw paired-end reads:原始配对末端读数
NGS data:NGS数据
in-house pipeline:内部管道
chromosomes:染色体
germplasms:种质
Gene annotation:基因注释
gene family:基因家族
gene cluster information:基因簇信息
Pfam data:Pfam数据
gene ontology:基因本体论
gene structure:基因结构
genomic sequence:基因组序列
coding sequence:编码序列
transcript sequence and peptide sequence:转录序列和肽序列
Multicriteria Search:多标准搜索
Comparative Search:比较搜索
Gene Search:基因搜索
single variation:单个变体
chromosomal positions:染色体位置
upstream and downstream sequences of SNP/InDel IDs:SNP/索引ID上游和下游序列
core germplasm collection:核心种质收集
association mapping results:关联映射结果
visualize genetic diversity:可视化遗传多样性
orthologs or paralogs of a sequence:序列的正射或旁射
peptide sequences:肽序列
agronomic traits:农艺性状
built-in data:内置数据
genotypic data:基因型数据
NGS sequencing data:NGS测序数据
reference data:参考数据
phenotypic data:表型数据
raw sequences:原始序列
database (BnSNPDB):数据库(BnSNPDB)
linkage disequilibrium heat map (LDheatmap):连锁不平衡热图(LDheatmap)
SNP distribution map:SNP分布图
phylogenetic tree:系统发育树
rapeseed accessions:油菜种质
principal component analysis (PCA):主成分分析(PCA)
population structure analysis:群体结构分析
genetic polymorphism analysis:遗传多态性分析
genomic variation analyses:基因组变异分析
population genomic:群体基因组学
whole-genome molecular marker-assisted breeding:全基因组分子标记辅助育种
SNP array data:SNP阵列数据
genomic variation visualization:基因组变异可视化
genetic diversity:遗传多样性
core germplasm:核心种质库
rapeseed individuals:油菜个体
MEM algorithm:MEM算法
NCBI’s nonredundant protein database (Nr) :NCBI的非冗余蛋白质数据库(Nr)