【水环境病原菌数据库开发心得】

DPiWE数据库简介

DPiWE数据库收录了人类疾病、鱼类疾病及跨宿主共患病等六类疾病中的13个门(包括4个变形菌纲),116个科,221个属和1097个种下的9070株细菌病原信息(主要为细菌分类学、侵染途径和宿主信息等)和对应的16S rRNA基因序列数据。这些信息均在web端公开(dayuz.com或http://pathogen.umehd.com/),并且通过内置NoSQL数据库、Rserve和 Usearch全局搜索软件实现了对病原菌信息检索、序列比对和注释结果可视化等功能。

DPiWE数据库的诞生机缘

最初这个项目主要用于服务课题组内部,用于评估水环境扩增子数据中的潜在病原菌比例和病原传播的风险。数据库的信息完善也经历多个同学和老师的完善,从鱼类病原,逐渐增加到包含人类粪-口传播的病原菌,最后把多个数据库库中的病原信息进行了汇总,其实范围已经远超过了水环境的范围,也可以用于对其他生境中的潜在细菌病原的评估。

DPiWE数据库的使用

下面主要对DPiWE数据库web端以及数据库文章中的两个案例进行介绍。

DPiWE数据库web端使用指南

DPiWE数据库的界面介绍

界面共分为4个部分:

  1. 导航栏 ,数据库的主要功能实现;
  2. 选项卡 用户当前使用的数据库功能,在分析同一个项目时,建议在不同选项卡之间进行操作;
  3. 搜索栏 根据关键词或阈值对匹配结果进行筛选;
  4. 数据表 实现对数据库匹配结果进行展示、修改或批量下载的功能。
    在这里插入图片描述

Web端功能1

基于物种(属)名查询DPiWE数据库储存的病原信息
病原信息查询

Web端功能2

基于DPiWE数据库的16S rRNA基因序列的物种注释

  1. 用户序列上传
    序列上传
    数据上传注意事项
    √ 基因序列文件必须为纯文本的fasta格式(不支持任何形式的压缩文件等二进制文件);
    √ 序列文件大小不能超过20M,若序列文件较大,请拆分序列并多次上传;
    √ 请及时保存注释信息等分析结果,数据库网站仅保存用户的1个月的数据。
  2. 用户上传序列文件的管理
    序列文件管理
    数据删除注意事项
    √ 用户每次成功上传基因序列文件,均会在“项目管理”中自动生成一个项目;
    √ 用户的每次分析的数据和结果均储存在单个的项目中,删除项目则所有的数据均被擦除,删除后数据库不记录用户的结果信息,因此请务必谨慎执行。
  3. 匹配结果的相似度筛选
    相似度筛选
  4. 物种注释信息的获取与下载
    结果展示与下载

Web端功能3

基于匹配结果的可视化报告(下载弹出框内的zip文件)
下载报告

DPiWE数据库案例分析

案例1

基于DPiWE数据库比对结果的菌株DS10−D19系统发育网络构建
系统发育网络可视化R代码如下。

library(phangorn)
library(ggnetworx)

setwd("Pathogen_building_scxb")
tipseq <- read.phyDat("Photobacterium_with_D19_align_seqs.fasta", format="fasta")
dm<- dist.ml(tipseq)
nnet<- neighborNet(dm)
ggplot(nnet, aes(x, y), size= 1.5)  + 
  geom_splitnet(layout = "unrooted") + 
  geom_tiplab2() + 
  geom_treescale(x=0.03, y=0, fontsize=2.3, linesize=1, offset=.0051) +
  xlim(-0.03,0.05) + 
  theme_void()               

系统发育网络如下:
基于DPiWE构建菌株DS10−D19在发光杆菌属中的系统发育网络

案例2

基于高通量测序数据的DPiWE分析揭示水产动物和养殖环境病原群落组成及溯源
病原菌组成和朔源的Sankey图可视化R代码如下。

library(reshape2)
library(ggalluvial)
library(tidyverse)
library(wesanderson)
library(RColorBrewer)
library(splines)
library(graphics)
setwd("Sun_AMB2020_path")

path_df<- read.table("path_abun_table.txt", sep = "\t", header = T, stringsAsFactors = F)
sample_anno<- read.table("path_abun_sum.txt", sep = "\t", header = T, stringsAsFactors = F)

###格式化数据为长数据,并统计
path_host_sum<- aggregate(. ~ host + path, data = path_df[,-1], FUN = sum)
path_host_tmp<- path_host_sum[, sample_anno$sample.id]
path_host_tmp1<- path_host_tmp / sample_anno$seqs
path_host_tmp2<- cbind(path_host_sum[,1:2], path_host_tmp1)
path_host_melt<- melt(data = path_host_tmp2, id=c("host", "path"), 
                      variable.name="sample",value.name="per")
path_host_melt$health<- sample_anno$health[match(path_host_melt$sample, 
                                                 sample_anno$sample.id)]
path_host_melt$Env<- sample_anno$Env[match(path_host_melt$sample, 
                                                 sample_anno$sample.id)]
path_host_stat<- aggregate(per ~ ., data = path_host_melt[,-3], FUN = sum)

###设置各层次和连线(流量)颜色
col_bar<- c("#8C510A", "#BF812D", "#4393C3", "#2166AC", "#134E5E", "#2A6766", "#41806F", "#599977", "#71B280")
cor_genus<- c("gray", "blue", "orange", "purple", "green", "red")

###绘制Sankey图
ggplot(data = path_host_stat,
            aes(y = per, axis3 = host, axis2 = health, axis1 = Env1)) +
  geom_alluvium(aes(fill = path), width = 1/12) +
  geom_stratum(width = 0.15, fill = col_bar, color = "white") + 
  scale_fill_manual(values = cor_genus) +
  coord_flip() +
  theme(panel.grid = element_blank(), 
        axis.text = element_blank(),
        axis.title = element_blank(),
        axis.ticks = element_blank(),
        panel.background = element_rect(color = 'black', fill = 'transparent')) +
  theme(legend.title = element_blank(), legend.position = "bottom")

Sankey图如下
病原菌组成和朔源的Sankey图

预大家学习顺利!

参考文献

[1] 董鹏生, 郭海朋, 王艳婷, 程皇位, 王凯, 洪慢, 侯丹迪, 吴宇华, 张德民. 水环境细菌病原数据库的构建及应用[J]. 水产学报, 2021, 45(11): 1921-1933. doi: 10.11964/jfc.20210612935
DONG Pengsheng, GUO Haipeng, WANG Yanting, CHENG Huangwei, WANG Kai, HONG Man, HOU Dandi, WU Yuhua, ZHANG Demin. DPiWE: a curated database for pathogenic bacteria involved in water environment[J]. Journal of fisheries of china, 2021, 45(11): 1921-1933. doi: 10.11964/jfc.20210612935
[2] Hou D, Hong M, Wang Y, Dong P, Cheng H, Yan H, Yao Z, Li D, Wang K, Zhang D. Assessing the Risks of Potential Bacterial Pathogens Attaching to Different Microplastics during the Summer-Autumn Period in a Mariculture Cage. Microorganisms. 2021 Sep 9;9(9):1909. doi: 10.3390/microorganisms9091909. PMID: 34576804; PMCID: PMC8469625.

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值