SAM得到完美匹配(perfect match)

主要针对bwa生成的sam文件中,如何找到完美匹配的比对结果。

完美匹配(perfect match)是指:一条序列能够在不允许编辑距离(edit distance),碱基错配(mismatch), GAP opens/extentions时能够比对到参考基因组上。

BWA比对的结果最终为sam(Sequence Alignment/Map)格式,内容如下:

ColFieldDescription
1QNAMEQuery (pair) NAME
2FLAGbitwise FLAG
3RNAMEReference sequence NAME
4POS1-based leftmost POSition/coordinate of clipped sequence
5MAPQMAPping Quality (Phred-scaled)
6CIAGRextended CIGAR string
7MRNMMate Reference sequence NaMe (‘=’ if same as RNAME)
8MPOS1-based Mate POSistion
9ISIZEInferred insert SIZE
10SEQquery SEQuence on the same strand as the reference
11QUALquery QUALity (ASCII-33 gives the Phred base quality)
12OPTvariable OPTional fields in the format TAG:VTYPE:VALUE

CIGAR值能够指示部分比对情况,但是但从CIGAR值来判断比对详细情况是不够的,所以,比如一条序列长度为36bp,比对到基因组上,CIGAR值为“36M”,单凭这个值是不能判断是否为完美匹配的。

我们需要根据bwa结果中的OPT列,即tag值来进行进一步的判断。bwa中提供的tag值如下:

TagMeaning
NMEdit distance
MDMismatching positions/bases
ASAlignment score
BCBarcode sequence
X0Number of best hits
X1Number of suboptimal hits found by BWA
XNNumber of ambiguous bases in the referenece
XMNumber of mismatches in the alignment
XONumber of gap opens
XGNumber of gap extentions
XTType: Unique/Repeat/N/Mate-sw
XAAlternative hits; format: (chr,pos,CIGAR,NM;)*
XSSuboptimal alignment score
XFSupport from forward/reverse alignment
XENumber of supporting seeds

在使用tag信息挑选perfect match时,设置NM(编辑距离)为0,XM(错配个数)为0,X0(最佳匹配个数)为1。之所以设置最佳匹配数,是因为一条序列有可能有多个完美匹配,这种序列在后续分析中不会用到,这个参数是可选的。

使用Perl语言设置的过滤条件如下:

next if $line !~ /NM:i:0/;
next if $line !~ /XM:i:0/;
next if $line !~ /X0:i:1\s+/;

(完)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
光谱角度匹配(Spectral Angle Mapping,SAM)是一种在遥感图像分析中常用的算法,它用于计算目标像素与光谱库中不同光谱类别的角度差异,从而实现目标分类的目的。下面是关于SAM算法在Matlab中的相关介绍。 在Matlab中,可以使用光谱库和目标像素的光谱数据作为输入,通过计算光谱角度差异来判断目标像素属于哪一类别。具体的实现方法如下: 1. 首先,从遥感图像中提取目标像素的光谱信息,并将其转换为一个包含不同波段的光谱向量。 2. 准备一个光谱库,其中包含不同类别的光谱信息。光谱库中的每个样本都是一个光谱向量,代表一个特定的类别。 3. 计算目标像素的光谱向量与光谱库中每个样本的角度差异。这个角度差异其实就是两个光谱向量之间的夹角,可以使用arccos函数来计算。 4. 对于每个角度差异,选择最小的角度作为目标像素的分类结果。最小的角度差异对应于光谱库中与目标像素最相似的类别。 5. 将目标像素的分类结果可视化,可以生成一个分类图像,用不同的颜色表示不同的类别。 需要注意的是,SAM算法在实际应用中可能受到多种因素的影响,如光照条件、传感器噪声等,这些因素可能导致分类结果的不准确。因此,在使用SAM算法进行图像分类时,需要根据具体的应用场景进行参数调整和算法优化,以获得更好的分类效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值