sam机架效果包_转录组实战(八):sam/bam文件查看

Subjunc构建的索引格式没有规律,Hisat构建出来的索引比较规则。目前主流的序列比对软件还是Hisat。除了这两种软件以外,还有bwa软件达到对RNA-seq数据的最高成功比对率。来自生信技能树之—五款流行比对工具大比拼

bam/sam格式来源

27ea52cc837de88aa71656b2bff08d0b.png 139cdf25b7d4760a3db42760e47ca9a8.png SAM(The Sequence Alignment/Map format)格式 ,及序列比对/映射文件格式。 BAM格式文件是SAM文件的的二进制格式, 内存占有较小。SAM文件可以通过转换形成BAM文件。二者都是由序列比对(Hisat/subjunc/bwa等)工具产生。BAM文件最后被用来进行featureCounts定量所需要。

SAM和BAM格式都是属于samtools包之中。

(rna) Aug17 20:54:49 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools sort -@ 3 -o SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sam使用samtool包中的函数进行转换
  • sort :从小到大排序

  • -@ :线程数

  • -o:定义输入文件夹,为bam文件

775d1bbcf7e705df2c6ed25ea27c2a60.png

经过转换以后,原本的13.2Mb的sam文件压缩成了3.1Mb的bam文件,内存的占有少了。
为了能够快速访问bam文件,可以为已经基于坐标排序后的bam文件创建索引,生成以.bai或者.crai为后缀的索引文件。必须使用排序后的文件,否则可能会报错。另外,不能对sam文件使用此命令
(rna) Aug17 21:09:18 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools index SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sorted.bam.bai

bam文件是通过hisat软件生成sam文件,接着转换为bam文件。最终bam文件可以实现定量的效果。 批量实现hisat序列比对和bam文件转换如下:
$ pwd/trainee/Aug17/project/Human-16-Asthma-Trans/mapping/hisatindex=/trainee/Aug17/database/genome/Ensembl/Homo_sapiens/GRCh38_release95/Homo_sapiens.GRCh38_release95.genomeinputdir=/trainee/Aug17/project/Human-16-Asthma-Trans/data/cleandata/trim_galoreoutdir=/trainee/Aug17/project/Human-16-Asthma-Trans/Mapping/Subjunc定义输入与输出文件夹cat /teach/project/Human-16-Asthma-Trans/data/rawdata/sra/sampleId.txt | while read iddo echo "hisat2 -p 3 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id}   _2_val_2.fq.gz 2>${id}.log  | samtools sort -@ 1 -o ${outdir}/${id}.Hisat_aln.sorted.bam -     && samtools index ${outdir}/${id}.Hisat_aln.sorted.bam ${outdir}/${id}.Hisat_aln.sorted.bam.bai"  hisat多样本比对加sam转换为bam文件和对bam文件进行建索引nohup sh subjunc.sh >subjunc.log &运行
7dd677ac77d32976ea8f715905d352bd.png

bam/sam格式介绍

de890a10ff837a306a2f561830d3525d.png使用less命令来观察一下sam文件里的内容
(rna) Aug17 21:09:18 ~/project/Human-16-Asthma-Trans/mapping/hisat$ less -S SRR1039510.Hisat_aln.sam
sam文件由两部分组成 第一部分:由Tab键分开

9cb7d6927543812f747a7b73ad3482f1.png

  • @HD     VN:1.0  SO:unsorted(图中没截图下来,在第一个结果中):格式版本。SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。

  • @SQ SN:1 LN:248956422:染色体数和染色体长度

  • @PG     ID:hisat2       PN:hisat2       VN:2.2.1        CL:比对所使用的软件及版本。CL是运行程序代码

第二部分:由Tab键分开

60944639fdbdfa7b9a7825f1516c9ebf.png

第二部分是比对结果,每一个比对结果是一行。共有11列的主信息和一个可选列。字段之间用制表符进行分割
列数关键字描述
1NAME比对read的编号
2FLAG布尔特征值
3RNAME比对到参考序列上的染色体号
4POS比对到参考序列上的位置,从1开始计数,未比对到的记为0
5MAPQ比对的质量分数,越高说明该read比对到参考基因组上的位置越准确
6CIGAR简要比对信息表达式,以参考序列为基础,使用字母加数字表示比对结果
7matechr一段paired有两个mate,这是指下一个mate比对上的参考序列编号
8mate
position
下一个mate比对上的参考基因组位置,未必对到的记为0
9ISIZE双端测序使用的模板,有正负区分
10Sequence存储的read序列信息
11ASCIIASCII码值,read读数的质量值
12Optional
fields
可选列

FLAG值的含义

875cdad59dde80772cacce991f54d0b5.png bec65db95e12d287d74b694408577ef2.png对于sam的详解,可以进入SAM官网进行深入理解: SAM官网其中含有一个特征值叫做FLAG值,FLAG值是对序列比对到参考基因组上进行的概率统计.官网上的FLAG介绍如下:

d1072f4d01ca7f2e33e483ed04cb77f7.png

FLAG值是一个二进制文件,从官网上可以看出不同的FLAG值所对应比对结果也是不一样。比如说,上面FLAG值设置为99代表的二进制在第一个read中分别为0x1,0x2,0x16,0x128,在第二个read中分别为0x1,0x2,0x32,0x64.这些二进制的文件所包含的含义如下:

54fba8f3ce8f20151774a033110353e3.png

在官网中,得到的二进制文件进行解释可以为read1为双端测序,与参考基因完全匹配,没有错配和缺失,这是第二条链,为反向链。这个二进制文件在linux中可以通过命令查看
(rna) Aug17 22:30:17 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools flagsAbout: Convert between textual and numeric flag representationUsage: samtools flags INT|STR[,...]Flags:  0x1  PAIRED        .. paired-end (or multiple-segment) sequencing technology  0x2  PROPER_PAIR   .. each segment properly aligned according to the aligner  0x4  UNMAP         .. segment unmapped  0x8  MUNMAP        .. next segment in the template unmapped  0x10  REVERSE       .. SEQ is reverse complemented  0x20  MREVERSE      .. SEQ of the next segment in the template is reversed  0x40  READ1         .. the first segment in the template  0x80  READ2         .. the last segment in the template  0x100  SECONDARY     .. secondary alignment  0x200  QCFAIL        .. not passing quality controls  0x400  DUP           .. PCR or optical duplicate  0x800  SUPPLEMENTARY .. supplementary alignment(rna) Aug17 22:30:43 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools flags 990x63  99  PAIRED,PROPER_PAIR,MREVERSE,READ1通过samtools flags数值直接查看比对情况
简要地说:FLAG值是帮助我们查看比对的情况

CIGAR值详解

CIGAR string,简要比对信息表达式( Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的,字母的含义如下 :

edcdb9ee81c67c919203c27c6aff56de.png

6988231c2f7c655f0565e28185e2c325.png

例如其他的都是63M,有63个bp长度比对到了参考基因组上,这里有个20M113N43M说了20个bp比对上了之后,有113个bp跳过了这一段,接着有43bp继续比对上了。

bam/sam文件的查看与利用

08bb55780ce83bb18b2a51a1f1ab208e.png bb000bfd2222eafc036141c586ddf8b6.gif
  • samtools工具官网:samtools工具使用

  • samtools常用命令总结:samtools常用命令

cbd768912f8892f1e75ecd370b1ebdd5.png

sam文件可以用less -S命令直接进行查看(小声哔哔:加个column -t可以实现每一列对齐),但是bam文件只可以使用samtools工具来进行查看。

测序知识真重要, 回去好好看陈巍学基因 呼~

小冉冉~
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据您提供的信息,当在 JBrowse 浏览器页面上创建 `alignment` 轨道后,诊断信息显示 HTTP 403 错误。错误信息指出在获取 `http://192.168.211.234:7777//default/files/jbrowse/persea_americana__avocados_1/data/bam/pame.hifi.bam.bai` 时出现了权限问题。 HTTP 403 错误表示服务器拒绝了请求,通常是由于缺乏访问权限或身份验证失败引起的。在您提供的 URL 中,我们可以看到 `pame.hifi.bam.bai` 文件的路径。 要解决这个问题,可以尝试以下步骤: 1. 检查文件路径和名称:确保所提供的路径和文件名正确无误。确认文件是否存在,并检查文件所在目录的权限设置。 2. 检查服务器权限:确保服务器上的相关文件或目录具有适当的权限,以允许 JBrowse 浏览器访问和读取这些文件。检查文件所在目录的权限设置,并确保对该目录的访问权限正确配置。 3. 身份验证问题:如果您的服务器需要身份验证才能访问文件,请确保您提供了正确的凭据(用户名和密码等)。 4. 检查服务器日志:查看服务器日志以获取更多详细信息,以确定引起 HTTP 403 错误的具体原因。服务器日志通常位于服务器的日志文件夹中,可以提供有关访问错误的更多信息。 请注意,这些步骤可能需要根据您的具体环境和服务器配置进行调整。 如果问题仍然存在,请提供更多详细信息,例如服务器配置、文件路径和相关代码,以便我能够更准确地帮助您解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值