Subjunc构建的索引格式没有规律,Hisat构建出来的索引比较规则。目前主流的序列比对软件还是Hisat。除了这两种软件以外,还有bwa软件达到对RNA-seq数据的最高成功比对率。来自生信技能树之—五款流行比对工具大比拼
bam/sam格式来源
SAM(The Sequence Alignment/Map format)格式 ,及序列比对/映射文件格式。 BAM格式文件是SAM文件的的二进制格式, 内存占有较小。SAM文件可以通过转换形成BAM文件。二者都是由序列比对(Hisat/subjunc/bwa等)工具产生。BAM文件最后被用来进行featureCounts定量所需要。SAM和BAM格式都是属于samtools包之中。
(rna) Aug17 20:54:49 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools sort -@ 3 -o SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sam使用samtool包中的函数进行转换
sort :从小到大排序
-@ :线程数
-o:定义输入文件夹,为bam文件
为了能够快速访问bam文件,可以为已经基于坐标排序后的bam文件创建索引,生成以.bai或者.crai为后缀的索引文件。必须使用排序后的文件,否则可能会报错。另外,不能对sam文件使用此命令
(rna) Aug17 21:09:18 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools index SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sorted.bam.bai
bam文件是通过hisat软件生成sam文件,接着转换为bam文件。最终bam文件可以实现定量的效果。 批量实现hisat序列比对和bam文件转换如下:
$ pwd/trainee/Aug17/project/Human-16-Asthma-Trans/mapping/hisatindex=/trainee/Aug17/database/genome/Ensembl/Homo_sapiens/GRCh38_release95/Homo_sapiens.GRCh38_release95.genomeinputdir=/trainee/Aug17/project/Human-16-Asthma-Trans/data/cleandata/trim_galoreoutdir=/trainee/Aug17/project/Human-16-Asthma-Trans/Mapping/Subjunc定义输入与输出文件夹cat /teach/project/Human-16-Asthma-Trans/data/rawdata/sra/sampleId.txt | while read iddo echo "hisat2 -p 3 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id} _2_val_2.fq.gz 2>${id}.log | samtools sort -@ 1 -o ${outdir}/${id}.Hisat_aln.sorted.bam - && samtools index ${outdir}/${id}.Hisat_aln.sorted.bam ${outdir}/${id}.Hisat_aln.sorted.bam.bai" hisat多样本比对加sam转换为bam文件和对bam文件进行建索引nohup sh subjunc.sh >subjunc.log &运行
bam/sam格式介绍
使用less命令来观察一下sam文件里的内容(rna) Aug17 21:09:18 ~/project/Human-16-Asthma-Trans/mapping/hisat$ less -S SRR1039510.Hisat_aln.sam
sam文件由两部分组成
第一部分:由Tab键分开
@HD VN:1.0 SO:unsorted(图中没截图下来,在第一个结果中):格式版本。SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。
@SQ SN:1 LN:248956422:染色体数和染色体长度
@PG ID:hisat2 PN:hisat2 VN:2.2.1 CL:比对所使用的软件及版本。CL是运行程序代码
列数 | 关键字 | 描述 |
1 | NAME | 比对read的编号 |
2 | FLAG | 布尔特征值 |
3 | RNAME | 比对到参考序列上的染色体号 |
4 | POS | 比对到参考序列上的位置,从1开始计数,未比对到的记为0 |
5 | MAPQ | 比对的质量分数,越高说明该read比对到参考基因组上的位置越准确 |
6 | CIGAR | 简要比对信息表达式,以参考序列为基础,使用字母加数字表示比对结果 |
7 | matechr | 一段paired有两个mate,这是指下一个mate比对上的参考序列编号 |
8 | mate position | 下一个mate比对上的参考基因组位置,未必对到的记为0 |
9 | ISIZE | 双端测序使用的模板,有正负区分 |
10 | Sequence | 存储的read序列信息 |
11 | ASCII | ASCII码值,read读数的质量值 |
12 | Optional fields | 可选列 |
FLAG值的含义
对于sam的详解,可以进入SAM官网进行深入理解: SAM官网其中含有一个特征值叫做FLAG值,FLAG值是对序列比对到参考基因组上进行的概率统计.官网上的FLAG介绍如下: FLAG值是一个二进制文件,从官网上可以看出不同的FLAG值所对应比对结果也是不一样。比如说,上面FLAG值设置为99代表的二进制在第一个read中分别为0x1,0x2,0x16,0x128,在第二个read中分别为0x1,0x2,0x32,0x64.这些二进制的文件所包含的含义如下: 在官网中,得到的二进制文件进行解释可以为read1为双端测序,与参考基因完全匹配,没有错配和缺失,这是第二条链,为反向链。这个二进制文件在linux中可以通过命令查看(rna) Aug17 22:30:17 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools flagsAbout: Convert between textual and numeric flag representationUsage: samtools flags INT|STR[,...]Flags: 0x1 PAIRED .. paired-end (or multiple-segment) sequencing technology 0x2 PROPER_PAIR .. each segment properly aligned according to the aligner 0x4 UNMAP .. segment unmapped 0x8 MUNMAP .. next segment in the template unmapped 0x10 REVERSE .. SEQ is reverse complemented 0x20 MREVERSE .. SEQ of the next segment in the template is reversed 0x40 READ1 .. the first segment in the template 0x80 READ2 .. the last segment in the template 0x100 SECONDARY .. secondary alignment 0x200 QCFAIL .. not passing quality controls 0x400 DUP .. PCR or optical duplicate 0x800 SUPPLEMENTARY .. supplementary alignment(rna) Aug17 22:30:43 ~/project/Human-16-Asthma-Trans/mapping/hisat$ samtools flags 990x63 99 PAIRED,PROPER_PAIR,MREVERSE,READ1通过samtools flags数值直接查看比对情况
简要地说:FLAG值是帮助我们查看比对的情况
CIGAR值详解
CIGAR string,简要比对信息表达式( Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的,字母的含义如下 : 例如其他的都是63M,有63个bp长度比对到了参考基因组上,这里有个20M113N43M说了20个bp比对上了之后,有113个bp跳过了这一段,接着有43bp继续比对上了。bam/sam文件的查看与利用
samtools工具官网:samtools工具使用
samtools常用命令总结:samtools常用命令
sam文件可以用less -S命令直接进行查看(小声哔哔:加个column -t可以实现每一列对齐),但是bam文件只可以使用samtools工具来进行查看。
测序知识真重要, 回去好好看陈巍学基因 呼~
小冉冉~