乳酸菌作为微生物领域重要的战略资源,在食品加工、农业种植、动物养殖以及生物制药等领域具有广泛的应用价值。然而,与其巨大的应用潜能相比,目前对乳酸菌资源的全面理解尚处于起步阶段。内蒙古农业大学张和平及团队在Science Bulletin发表最新研究,构建了一个综合性的乳酸菌基因组数据库iLABdb(https://www.imhpc.com/iLABdb)。iLABdb共包含62900
个非冗余乳酸菌基因组(67.3%
是分离株,32.7%
是MAGs),其中超11000
个新测序的乳酸菌基因组,菌株的主要来源是人类(57.7%
)和食物(18.2%
);收集并验证了1054
项临床益生菌干预研究,以促进科学循证和医学研究。
Figure 4.1: 首页设计采用大轮播平铺式布局,网站名字
/菜单导航
+ 全屏轮播图/搜索
+ 地图
+ 数据库描述、色块统计信息
(点击可跳转对应的数据浏览页面)。轮播体现数据库特色、直观、美观,大气呈现。
4.1 数据浏览(Visualize)
数据浏览共包括4部分内容:基因组、物种、临床益生菌干预研究、明星菌株。从4个层面分别展示了乳酸菌的资源和应用信息。
4.1.1 基因组数据可视化(Genome)
基因组数据检索与可视化,首先从整体上对基因组数据的分布以可交互式饼图的形式做了统计展示,用户点击饼图的扇区,即可对下方数据表实现联动筛选。
Figure 4.2: 基因组信息统计。普通表格展示太枯燥,这里对表格的关键信息用饼图展示,一目了然基因组的关键属性信息及其数量分布;每个属性有多少类,每类基因组相对多少,增加了页面的丰富性,且方便筛选某一类基因组。表格可选择展示哪些列,适应大小屏幕展示。表格采用分页表格,按需向后台访问数据,单次加载数据少,加快了加载速度,且可全局搜索,方便查看特定类型基因组。
点击基因组编号(如iLABdb.g1000
),可跳转至该基因组的详情页面,包括基因组的基本信息、组装信息、菌株名(该基因组对应的菌株如果有多个别名,该数据库也做了详细收录)、基因注释、CAZy/VFDB注释、KEGG分析、短链脂肪酸代谢通路、关键因子的基因组分布。(ref:ilabgenome002) 基因组详情页。详情页面展示的内容非常丰富;右侧有目录导航既是页面内容的概览,又方便快速跳转。丰富的可交互式图(
旭日图、
柱状图、
环形图、
染色体结构图)多层次呈现数据信息,增强了基因组信息的可视化效果,用户可以非常直观的认识一个基因组的详情信息。点击
KEGG module`的编号,可跳转至KEGG数据库对应的页面。
Figure 4.3: (ref:ilabgenome002)
4.1.2 物种数据可视化(Species)
物种信息的检索及可视化。本数据库主要集成的乳酸菌的物种数据,从科(Family)和属(Genus)水平上进行了统计展示。
Figure 4.4: 物种信息统计.普通表格展示太枯燥,这里对表格的关键信息用饼图展示,一目了然物种的关键属性信息;每个属性有多少类,每类基因组相对多少,增加了页面的丰富性,且方便筛选某一类物种。表格可筛选显示关注的列信息,适应大/小屏幕展示。表格采用分页表格,按需向后台访问数据,单次加载数据少,加快了加载速度,且可全局搜索,方便查看特定类型物种信息。
在表格中,点击物种ID可跳转至该物种的详情页,点击基因组ID会跳转至对应的基因组详情页。物种详情页,主要展示了物种的基本信息、全球地理分布、以及该物种下的基因组列表。
Figure 4.5: 物种详情页。详情页面,基本信息展示了物种的taxonomy分类信息、clusterID以及该物种包含的基因组数量。以交互式地图和饼图的形式展示了该物种基因组的地里分布及样本来源。数据表中展示了每个基因组的具体信息,点击ID可以跳转至相应的基因组详情页。
4.1.3 临床益生菌干预研究(Clinical Trial Results)
临床益生菌干预研究数据的检索及可视化。该部分数据可通过人体结构
或疾病类型
进行项目数据的查询,也可通过检索框进行全局检索。
Figure 4.6: 临床益生菌干预研究检索页面。
该页面中用户可通过三种方式检索数据。
(1)检索框
Figure 4.7: 检索形式及结果展示
(2)人体器官展示相应的疾病和益生菌研究数目
Figure 4.8: 人体器官检索
(3)玫瑰图展示不同疾病对应的益生菌研究项目的数目
Figure 4.9: 玫瑰图检索
4.1.4 明星菌株(Star LAB strains)
明星菌株页面描述了入选明星菌株的基本条件。同时展示了现有明星菌株的基因组、动物实验、临床实验及发酵工业中的应用等详细信息。
Figure 4.10: 明星菌株。以动态气泡图的形式展示了明星菌株。气泡中的图片代表明星菌株的分离来源,气泡的大小代表该明星菌株相关的研究数量,点击任意气泡,可以查看详情信息。
4.2 数据分析(Analyze)
分析工作流是利用Snakemake(版本7.24.0)建立的,可高效注释分离菌基因组或宏基因组 MAG 基因组数据。主要功能包括:
常规注释:Bakta v1.7
KEGG注释:eggNOG-mapper V2.1.10
CAZy功能注释:dbCAN v4.0.0
噬菌体预测:PhiSpy v4.2.21
毒力因子注释(http://www.mgc.ac.cn/VFs/download.htm):Diamond v2.1.4
代谢基因簇:gutSMASH
最大增长率预测:gRodon v2
抗生素耐药性基因分析:ABRicate v1.0.0
Figure 4.11: 基因组分析。以色块的形式统计目前平台任务运行的情况,表格展示每个任务的状态信息,比如提交时间、运行状态、任务名称等。用户可根实际情况判断是否提交新的任务。任务提交后,会以进度条的形式展示任务的状态。任务完成后,用户可以点击Result
在线查看分析结果,也可以点击Download
下载分析结果至本地。
4.3 数据汇交(Submit)
本平台支持乳酸菌数据资源的汇交。主要包括三种类型:基因组数据
、明星菌株数据
、临床益生菌干预研究数据
。
4.3.1 基因组数据(Genome)
需提交基因组的元数据和组装后的基因组Fasta格式的文件。提交后,用户可凭邮箱地址查看历史数据。
Figure 4.12: 基因组数据汇交。下载元数据模板,填写后上传,并上传序列文件。
4.3.2 明星菌株(Star LAB strains)
明星菌株的数据相对较为复杂,该部分主要是文件数据和图片。元数据表主要写清楚明星菌株的相关描述信息及对应的文件名和分离源图片的名称。
Figure 4.13: 明星菌株数据汇交。下载元数据模板,填写后上传,并上传相应文件。
4.3.3 临床益生菌干预研究数据(Clinical trial data)
按照系统提供的模板整理数据,上传即可。
Figure 4.14: 临床益生菌干预研究数据汇交。下载元数据模板,填写后上传。
4.4 数据库成果
该数据库为内蒙古农业大学张和平团队等开发,于2023年9月12日在线发表于《Science Bulletin》,题为The iLABdb: a web-based integrated lactic acid bacteria database。
Figure 4.15: 在线发表论文
4 篇 NAR | 生物大数据时代,如何做好数据管理和再利用,发IF10+的数据库文章?