介绍
本文档描述了使用Sentieon® Genomics软件时,推荐使用RGID字段以最小化潜在问题的用法。
本文档能帮助您确定设置所使用的bam文件中RG标签的不同字段的最佳实践方法。
RG字段及其用法的详细描述
RG字段的详细描述
SAM格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM文件中的读段组字段可以包含以下标签:
ID
: 标识符。读段组的唯一标识符。您需要确保RGID在BAM文件内是唯一的,并且在同一个命令的流水线中使用的多个BAM文件内也是唯一的。此字段是必需的。
CN
: 中心名称。进行测序的测序中心的名称。通常情况下,此标签不被使用。
DS
: 描述。对读段组的自由格式描述。通常情况下,此标签不被使用。
DT
: 日期。运行生成的日期,遵循ISO8601日期或日期/时间格式。通常情况下,此标签不被使用。
FO
: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下,此标签不被使用。
KS
: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下,此标签不被使用。
LB
: 文库。用于测序读段的文库。
PG
: 程序。用于处理读段组的程序。通常情况下,相关信息会包含在BAM文件的PG字段中,而不是在每个读段组内单独设置。
PI
: 预测的中值插入大小。通常情况下,此标签不被使用。
PL</