个人理解hisat2 mapping 结果,并计算overall alignment rate

本文详细解析hisat2映射软件的输出,主要分为合理映射、不合理映射和单mate映射三部分。合理映射指reads对按正确方向和位置映射到基因组,包括唯一和多位置映射。不合理映射则包括方向错误的映射和完全无法映射的情况。单mate映射是指一对中只有一个mate能映射。总体映射率计算为成功映射的mate数量除以所有mate总数。参考了两篇相关博客资源。
摘要由CSDN通过智能技术生成

理解hisat2软件给出的mapping的总结,这部分总结分为三个部分:

第一个部分是成对的reads能够合理的mapping在基因组上,什么是合理的mapping? 成对的reads都是有方向的,有位置的,合理的mapping指的是这些reads对能够按照reads的坐标mapping到基因组的坐标上,包括mapping了仅一次,或者reads对mapping了多次,这都是合理的mapping。

第二部分是不合理的mapping,不合理的mapping指的是这些reads对没有按照reads的坐标进行mapping, 比如方向不对,这部分中mapping中有些reads对能够mapping上,尽管方向不对,比如read1 mapping到了基因组的(5'>3') read2,也是mapping到了基因组的(5'>3'), 他们可能在基因组上mapping上一次或者多次;还有一部分就是reads对完全不能mapping上,方向不对也mapping不上。

第三部分:上面成对的reads除外,剩余的成对reads,他们的reads单个的mate能够mapping上,当然有的1个reads的一个mate能够mapping上,另一个mate mapping不上,有的mate能够mapping到多个位置。

下图是一个mapping的结果总结:

21532571 reads; of these:
###第一部分
  21532571 (100.00%) were paired; of these:
    2112632 (9.81%) aligned concordantly 0 times
    18862458 (87.60%) aligned concord
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hisat2 是一种用于基因组比对的工具,它主要用于将高通量测序数据与参考基因组进行比对。下面是 Hisat2 的工作原理的详细阐述: 1. 索引构建:首先,Hisat2 需要构建一个索引来表示参考基因组。它使用 BWT(Burrows-Wheeler Transform)算法来压缩参考基因组,生成一个包含前缀和后缀信息的索引。这个索引允许 Hisat2 快速地在测序数据中搜索匹配的序列。 2. 比对过程: a. 预处理:Hisat2 对测序数据进行预处理,包括去除低质量的碱基和适配序列,以及进行质量修剪和过滤。 b. 回溯(Backtracking):Hisat2 使用回溯算法来搜索测序数据中的可能匹配序列。它从测序数据的末端开始,根据索引快速确定候选位置,然后向前回溯,并找到最佳的比对位置。 c. 转录本与剪接位点识别:Hisat2 还可以识别转录本和剪接位点。它会考虑到基因组中已知的转录本信息,并根据测序数据中的剪接位点来进行比对。 d. 处理多映射:由于基因组中可能存在多个相似的区域,测序数据也可能对应于多个位置。Hisat2 会考虑这种多映射情况,并为每个比对位置计算一个权重,以便进一步的分析和解释。 3. 输出结果:最终,Hisat2 会生成一个 SAM(Sequence Alignment/Map)格式的比对结果文件,其中包含了每个测序数据与参考基因组的比对信息,包括比对位置、质量分数等。 通过这种方式,Hisat2 可以高效准确地将测序数据与参考基因组进行比对,为后续的生物信息学分析提供基础数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值