公司数据导入EasyAmplicon

佩贾

已于 2023-03-17 21:59:43 修改

阅读量327

点赞数 1

文章标签：数据库

于 2023-03-14 19:24:52 首次发布

原文链接：https://doi.org/10.1002/imt2.83

版权

易扩增子(EasyAmplicon)是一套完整的扩增子分析流程，可以实现简单易用、可重复和跨平台地开展扩增子分析，支持20余种分析方法，并生成出版级图表。详细介绍可见GitHub - YongxinLiu/EasyAmplicon: Easy Amplicon data analysis pipeline

2023年1月27日，中国农科院基因组所刘永鑫团队、中国中医医科学院陈同团队和南京农业大学文涛团队等在 iMeta 在线发表了题为 “EasyAmplicon: An easy-to-use, open-source, reproducible, and community-based pipeline for amplicon data analysis in microbiome research ” 的文章。(DOI: https://doi.org/10.1002/imt2.83)

本文将以美吉公司为例，详细介绍公司测序原始数据如何导入EasyAmplicon工作流。

一、准备工作：

1.创建工作目录，创建reslut和seq子目录。

2.在result目录中创建metadata_raw.txt并编辑。

3.将公司测序原始数据保存于seq目录，根据metadata中SampleID修改对应的测序文件名称。

二、：操作

根据EasyAmplicon/pipeline.sh at master · YongxinLiu/EasyAmplicon · GitHub进行操作

4. 去冗余挑选OTU/ASV Dereplicate and cluster/denoise之前的步骤可以根据以下代码进行调整。

#####本教程仅适用于美吉公司测序文件，其余公司暂未测试#####

## 0. 准备工作

    # 1. 设置工作目录(wd)、软件数据库目录(db)和环境变量(wd和db根据情况自行修改)
    # 2. 并进入工作目录
    wd=/e/bioinfo/storage/Easy
    db=/e/bioinfo/storage/_Package/EasyMicrobiome
    PATH=$PATH:${db}/win
    cd ${wd}

## 1. 起始文件 start files

    # 1. 分析流程：pipeline.sh(https://github.com/YongxinLiu/EasyAmplicon/blob/master/pipeline.sh)
    # 2. 样本信息：metadata_raw.txt(保存于result目录,参照图例自行编辑)
    # 3. 测序文件：***.fastq.gz(保存于seq目录,源文件在data.799F_1193R\valid)
    #    根据metadata中SampleID修改对应的测序文件名称
    # 4. 创建临时文件存储目录，分析结束可删除
    mkdir -p temp

### 1.1. 元数据/实验设计 metadata

    csvtk -t stat result/metadata_raw.txt
    cat -A result/metadata_raw.txt | head -n3
    # windows用户结尾有^M，运行sed命令去除，再用cat -A检查
    sed 's/\r//' result/metadata_raw.txt > result/metadata.txt
    cat -A result/metadata.txt | head -n3

### 1.2. 流程和数据库 pipeline & database

    # 数据库第一次使用必须解压，以后可跳过此段

    # usearchs可用16S/18S/ITS数据库：RDP, SILVA和UNITE，本地文件位置 ${db}/usearch/
    # usearch数据库database下载页: http://www.drive5.com/usearch/manual/sintax_downloads.html
    # 解压16S RDP数据库，gunzip解压缩，seqkit stat统计
    # 保留原始压缩文件
    gunzip -c ${db}/usearch/rdp_16s_v18.fa.gz > ${db}/usearch/rdp_16s_v18.fa
    seqkit stat ${db}/usearch/rdp_16s_v18.fa # 2.1万条序列
    # 解压ITS UNITE数据库，mv改名简化
    gunzip -c ${db}/usearch/utax_reference_dataset_all_29.11.2022.fasta.gz >${db}/usearch/unite.fa
    # mv ${db}/usearch/utax_reference_dataset_all_29.11.2022.fasta ${db}/usearch/unite.fa
    seqkit stat ${db}/usearch/unite.fa # 32.6万
    # Greengene数据库用于功能注释: ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
    # 默认解压会删除原文件，-c指定输出至屏幕，> 写入新文件(可改名)
    gunzip -c ${db}/gg/97_otus.fasta.gz > ${db}/gg/97_otus.fa
    seqkit stat ${db}/gg/97_otus.fa

## 2. 单端文件改名 Single-end reads rename

    gunzip seq/*.gz
    i=R1 # i为metadata中SampleID第一个样品的名称
    time for i in `tail -n+2 result/metadata.txt|cut -f1`;do
      usearch -fastx_relabel seq/${i}.fastq -fastqout temp/${i}.merged.fastq -prefix ${i}.
    done

### 2.1 改名后序列整合 integrate renamed reads

    #合并所有样品至同一文件
    cat temp/*.merged.fastq > temp/all.fastq
    # 查看序列名，“.”之前是否为样本名，样本名绝不允许有点 (".")
    # 后面分析获得特征表后要看一眼有没有问题，遇到内存不足问题，也要回头来排查。
    head -n 6 temp/all.fastq|cut -c1-60

## 3. 切除引物与质控 Cut primers and quality filter

    # 公司已经去除barcode和引物，参数填0即可
    time vsearch --fastx_filter temp/all.fastq \
      --fastq_stripleft 0 --fastq_stripright 0 \
      --fastq_maxee_rate 0.01 \
      --fastaout temp/filtered.fa
    # 查看文件了解fa文件格式
    head temp/filtered.fa

##之后步骤参照pipeline.sh(https://github.com/YongxinLiu/EasyAmplicon/blob/master/pipeline.sh)即可。