通过CoverM(v0.7.0)计算Contig 的RPKM值

CoverM 旨在成为可配置、易于使用和快速的 DNA 读取覆盖率和 相对丰度计算器专注于宏基因组学应用。

CoverM 计算基因组/MAG(帮助)或个体的覆盖率 重叠群(帮助)。通过读取映射计算覆盖率,其输入可以 可以是按参考排序的 BAM 文件,也可以是各种格式的原始读长和参考基因组。

coverm genome(计算基因组的相对丰度)   coverm contig (计算contig的相对丰度)

安装

创建个新环境

conda create -n coverm_env python=3.8
激活此环境

conda activate coverm_env

通过 bioconda 软件包安装

conda install -c conda-forge -c bioconda coverm=0.7.0

运行

coverm contig --coupled clean_R1.fastq.gz clean_R2.fastq.gz --reference assembly.fa --min-read-aligned-percent 75 --min-read-percent-identity 95 --min-covered-fraction 75 --contig-end-exclusion 0 -m rpkm -o output.txt

如果报错,重新安装对应的samtools版本确认 samtools 安装正确
conda install -c bioconda samtools

参数说明

coverm contig - 计算每个重叠群的读取覆盖率(版本 0.7.0)

概要

Coverm Contig <MAPPING_INPUT> ..

描述

Coverm Contig 计算一组重叠群上一组读取的覆盖率。

此过程可以通过多种方式进行,例如,通过指定 BAM 文件或原始读取作为输入、使用不同的映射程序、阈值读取对齐、使用不同的计算覆盖率的方法以及以各种格式打印计算的覆盖率。

CoverM 的源代码可在 GitHub - wwood/CoverM: Read coverage calculator for metagenomics 上获得

读取映射参数

-1 路径 ..

转发 FASTA/Q 文件进行映射。这些可能是 gzip 压缩的,也可能不是 gzip 的。

-2 路径 ..

反向 FASTA/Q 文件进行映射。这些可能是 gzip 压缩的,也可能不是 gzip 的。

-c, --耦合路径 ..

一对或多对可能经过 gzip 压缩的 FASTA/Q 文件,用于按 <sample1_R1.fq.gz> <sample1_R2.fq.gz> <sample2_R1.fq.gz> <sample2_R2.fq.gz>..

--交错路径 ..

用于映射的交错 FASTA/Q 文件。这些可能是 gzip 压缩的,也可能不是 gzip 的。

--单路径 ..

用于映射的未配对的 FASTA/Q 文件。这些可能是 gzip 压缩的,也可能不是 gzip 的。

-b, --bam-files 路径

BAM 文件的路径。除非指定,否则必须对它们进行引用排序(例如使用 samtools 排序),在这种情况下,必须对它们进行读取名称排序(例如使用 )。指定后,不执行读取映射算法。--shardedsamtools sort -n

参考

-r, --引用路径

重叠群的FASTA文件,例如串联基因组或宏基因组组装,或minimap2索引(带),频闪索引(带),或BWA索引干(带)。如果提供了多个引用 FASTA 文件并指定了,则读取将作为分片 BAM 单独映射到引用。[除非另有说明,否则为必填项]--minimap2-reference-is-index--strobealign-use-index-p bwa-mem/bwa-mem2--sharded-b/--bam-files

分片

--分片

如果已使用:输入 BAM 文件是映射到多个参照重叠群集的一组读取的读取排序对齐方式。为每个读取对选择最佳命中。否则,如果执行了映射:映射读取到每个引用,为每对选择最佳命中。[默认:未设置]-b/--bam-files

映射算法选项

-p, --mapper 名称

使用的基础映射软件 [default: ]。其中之一:minimap2-sr
名字描述
minimap2-sr带有“”选项的 minimap2-x sr
bwa-mem使用默认参数的 BWA MEM
bwa-mem2bwa-mem2 使用默认参数
minimap2-ont带有“”选项的 minimap2-x map-ont
minimap2-pb带有“”选项的 minimap2-x map-pb
minimap2-hifi带有“”选项的 minimap2-x map-hifi
minimap2-no-preset没有“”选项的 minimap2-x

--minimap2-params 参数

提供给 minimap2 的额外参数,包括 indexing 命令(如果使用)和 for mapping。请注意,如果指定了不受信任的输入,则使用此参数会产生安全隐患。'' 始终指定给 minimap2。[默认值:无]-a

--minimap2-reference-is-index

将引用视为 minimap2 数据库,而不是 FASTA 文件。[默认:未设置]

--bwa-params 方位符

提供给 BWA 或 BWA-MEM2 的额外参数。请注意,如果指定了不受信任的输入,则使用此参数会产生安全隐患。[默认值:无]

--strobealign-params 参数

提供给频闪对准的额外参数。请注意,如果指定了不受信任的输入,则使用此参数会产生安全隐患。[默认值:无]

--频闪使用索引

使用预生成的索引(已使用“strobealign --create-index”创建的索引)。--reference 选项应指定为原始 FASTA 文件,即 'ref.fna' 而不是 'ref.fna.r100.sti' [默认值:未设置]

对齐阈值

--min-read-aligned-length INT

排除具有较少数量的对齐碱基的读取。[默认值:0]

--min-read-percent-identity 浮点

按总体百分比标识排除读取,例如 95% 表示 95%。[默认值:0]

--min-read-aligned-percent 浮动

按对齐碱基的百分比排除读取,例如 95 表示读取的 95% 的碱基必须对齐。[默认值:0]

--min-read-aligned-length-pair INT

排除对齐碱基数量较少的对。表示 --proper-pairs-only。[默认值:0]

--min-read-percent-identity-pair 浮动

按总体身份百分比排除对,例如 95% 对 95%。表示 --proper-pairs-only。[默认值:0]

--min-read-aligned-percent-pair 浮点

按对齐碱基的百分比排除读取,例如 95 表示读取的 95% 的碱基必须对齐。表示 --proper-pairs-only。[默认值:0]

--proper-pairs-only

要求将读取映射为正确的对。[默认:未设置]

--exclude-supplementary

排除补充对齐。[默认:未设置]

--include-secondary

包括辅助对齐。[默认:未设置]

承保范围计算选项

-m, --methods 方法

计算覆盖率的方法 [default: ]。https://github.com/wwood/CoverM\#calculation-methods 中提供了对不同方法的更全面描述,但简要说明:mean
方法描述
mean(默认)重叠群上每个位置重叠的对齐读取的平均数
trimmed_mean删除覆盖最深和最浅的位置后,每个位置重叠的平均对齐读取数。查看/进行调整。--trim-min--trim-max
coverage_histogram覆盖深度直方图
covered_bases1 个或多个读段覆盖的碱基数
variance覆盖深度的差异
length碱基对中每个重叠群的长度
count与每个重叠群对齐的读取次数。请注意,补充对齐不计算在内。
metabat(“MetaBAT 调整后的覆盖范围”)Kang 等人 2015 年定义的覆盖范围 MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities [PeerJ]
reads_per_base对齐的读取数除以重叠群的长度
rpkm每千碱基重叠群映射的读取数,每百万映射读取数
tpmLi 等人 2010 年描述的每百万转录本 RNA-Seq gene expression estimation with read mapping uncertainty | Bioinformatics | Oxford Academic

--min-covered-fraction 分形

覆盖碱基数低于此值的重叠群被报告为零覆盖率。[默认值:0]

--contig-end-exclusion INT

从计算中排除参考序列末尾的碱基 [默认值:75]

--trim-min 分裂

计算trimmed_mean时删除这个最小的仓位部分 [默认值:5]

--trim-max 分形

trimmed_mean计算的最大分数 [默认值:95]

输出

-o, --output-file 文件

将覆盖率值输出到此文件,或将 STDOUT 输出为“-”。[默认:输出到 STDOUT]

--output-format 格式

输出形状:“稀疏”表示长格式,“密集”表示按地点分类。[默认值:密集]

--no-zeros

省略零覆盖率的基因组打印。[默认:未设置]

--bam-file-cache-directory 目录

输出在与此目录对齐期间生成的 BAM 文件。该目录可能存在,也可能不存在。请注意,此目录中的 BAM 文件包含所有映射,包括后来通过比对阈值(例如 --min-read-percent-identity)或基因组阈值(例如 --min-covered-fraction)排除的映射。[默认:未使用]

--丢弃未映射

从缓存的 BAM 文件中排除未映射的读取。[默认:未设置]

常规选项

-t, --线程 INT

用于映射、排序和读取的线程数。[默认值:1]

-h, --帮助

输出简短的使用消息。[默认:未设置]

--全帮

输出完整的帮助消息并显示在“man”中。[默认:未设置]

--full-help-roff

以原始 ROFF 格式输出完整的帮助消息,以转换为其他格式。[默认:未设置]

-v, --verbose

打印额外的调试信息。[默认:未设置]

-q, --安静

除非出现错误,否则不要打印日志消息。[默认:未设置]

常见问题 (FAQ)

可以更改使用的临时目录吗?CoverM利用系统临时目录(通常)来存储中间文件。如果可用的存储量很小或被许多程序使用,这可能会导致问题。要修复,请设置环境变量,例如将其设置为使用当前目录:/tmpTMPDIRTMPDIR=. coverm genome <etc>

对于阈值参数,例如 \-\-dereplication\-ani 和 \-\-min\-read\-percent\-identity,是否应该指定百分比(例如 97%)或分数(例如 0.97)?两者都很好,CoverM 通过小于或大于 1 来确定正在使用哪个。

参考文献: s://github.com/wwood/CoverM

                                Coverm Contig 用法 (wwood.github.io)

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值