公司数据导入EasyAmplicon

易扩增子(EasyAmplicon)是一套完整的扩增子分析流程,可以实现简单易用、可重复和跨平台地开展扩增子分析,支持20余种分析方法,并生成出版级图表。详细介绍可见GitHub - YongxinLiu/EasyAmplicon: Easy Amplicon data analysis pipeline

2023年1月27日,中国农科院基因组所刘永鑫团队、中国中医医科学院陈同团队和南京农业大学文涛团队等在 iMeta 在线发表了题为 “EasyAmplicon: An easy-to-use, open-source, reproducible, and community-based pipeline for amplicon data analysis in microbiome research ” 的文章。(DOI: https://doi.org/10.1002/imt2.83)

本文将以美吉公司为例,详细介绍公司测序原始数据如何导入EasyAmplicon工作流。

一、准备工作:

1.创建工作目录,创建reslut和seq子目录。

2.在result目录中创建metadata_raw.txt并编辑。

3.将公司测序原始数据保存于seq目录,根据metadata中SampleID修改对应的测序文件名称。

二、:操作

根据EasyAmplicon/pipeline.sh at master · YongxinLiu/EasyAmplicon · GitHub进行操作

4. 去冗余挑选OTU/ASV Dereplicate and cluster/denoise之前的步骤可以根据以下代码进行调整。

#####本教程仅适用于美吉公司测序文件,其余公司暂未测试#####

## 0. 准备工作

    # 1. 设置工作目录(wd)、软件数据库目录(db)和环境变量(wd和db根据情况自行修改)
    # 2. 并进入工作目录
    wd=/e/bioinfo/storage/Easy
    db=/e/bioinfo/storage/_Package/EasyMicrobiome
    PATH=$PATH:${db}/win
    cd ${wd}

## 1. 起始文件 start files

    # 1. 分析流程:pipeline.sh(https://github.com/YongxinLiu/EasyAmplicon/blob/master/pipeline.sh)
    # 2. 样本信息:metadata_raw.txt(保存于result目录,参照图例自行编辑)
    # 3. 测序文件:***.fastq.gz(保存于seq目录,源文件在data.799F_1193R\valid)
    #    根据metadata中SampleID修改对应的测序文件名称
    # 4. 创建临时文件存储目录,分析结束可删除
    mkdir -p temp

### 1.1. 元数据/实验设计 metadata

    csvtk -t stat result/metadata_raw.txt
    cat -A result/metadata_raw.txt | head -n3
    # windows用户结尾有^M,运行sed命令去除,再用cat -A检查
    sed 's/\r//' result/metadata_raw.txt > result/metadata.txt
    cat -A result/metadata.txt | head -n3

### 1.2. 流程和数据库 pipeline & database

    # 数据库第一次使用必须解压,以后可跳过此段

    # usearchs可用16S/18S/ITS数据库:RDP, SILVA和UNITE,本地文件位置 ${db}/usearch/
    # usearch数据库database下载页: http://www.drive5.com/usearch/manual/sintax_downloads.html
    # 解压16S RDP数据库,gunzip解压缩,seqkit stat统计
    # 保留原始压缩文件
    gunzip -c ${db}/usearch/rdp_16s_v18.fa.gz > ${db}/usearch/rdp_16s_v18.fa
    seqkit stat ${db}/usearch/rdp_16s_v18.fa # 2.1万条序列
    # 解压ITS UNITE数据库,mv改名简化
    gunzip -c ${db}/usearch/utax_reference_dataset_all_29.11.2022.fasta.gz >${db}/usearch/unite.fa
    # mv ${db}/usearch/utax_reference_dataset_all_29.11.2022.fasta ${db}/usearch/unite.fa
    seqkit stat ${db}/usearch/unite.fa # 32.6万
    # Greengene数据库用于功能注释: ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
    # 默认解压会删除原文件,-c指定输出至屏幕,> 写入新文件(可改名)
    gunzip -c ${db}/gg/97_otus.fasta.gz > ${db}/gg/97_otus.fa
    seqkit stat ${db}/gg/97_otus.fa

## 2. 单端文件改名 Single-end reads rename

    gunzip seq/*.gz
    i=R1 # i为metadata中SampleID第一个样品的名称
    time for i in `tail -n+2 result/metadata.txt|cut -f1`;do
      usearch -fastx_relabel seq/${i}.fastq -fastqout temp/${i}.merged.fastq -prefix ${i}.
    done

### 2.1 改名后序列整合 integrate renamed reads

    #合并所有样品至同一文件
    cat temp/*.merged.fastq > temp/all.fastq
    # 查看序列名,“.”之前是否为样本名,样本名绝不允许有点 (".")
    # 后面分析获得特征表后要看一眼有没有问题,遇到内存不足问题,也要回头来排查。
    head -n 6 temp/all.fastq|cut -c1-60

## 3. 切除引物与质控 Cut primers and quality filter

    # 公司已经去除barcode和引物,参数填0即可
    time vsearch --fastx_filter temp/all.fastq \
      --fastq_stripleft 0 --fastq_stripright 0 \
      --fastq_maxee_rate 0.01 \
      --fastaout temp/filtered.fa
    # 查看文件了解fa文件格式
    head temp/filtered.fa

##之后步骤参照pipeline.sh(https://github.com/YongxinLiu/EasyAmplicon/blob/master/pipeline.sh)即可。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值