2字段添加注释_从零开始生物信息学(8):常用数据格式(2)

最新推荐文章于 2022-02-05 11:34:01 发布

nlua

最新推荐文章于 2022-02-05 11:34:01 发布

阅读量171

点赞数

文章标签： 2字段添加注释

本文链接：https://blog.csdn.net/weixin_30100299/article/details/112710448

版权

前言

这部分内容继续介绍没介绍完的生物学常用格式：

BED

BED(Browser Extensible Data)格式也是一种常用的用于基因注释的数据格式。BED格式数据有专门开发的工具bedtools来专门处理，和之前提到的GFF文件有很多相似的地方。

BED数据格式如下；

chr7  127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7  127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0
chr7  127473530  127474697  Pos3  0  +  127473530  127474697  255,0,0
chr7  127474697  127475864  Pos4  0  +  127474697  127475864  255,0,0
chr7  127475864  127477031  Neg1  0  -  127475864  127477031  0,0,255
chr7  127477031  127478198  Neg2  0  -  127477031  127478198  0,0,255
chr7  127478198  127479365  Neg3  0  -  127478198  127479365  0,0,255
chr7  127479365  127480532  Pos5  0  +  127479365  127480532  255,0,0
chr7  127480532  127481699  Neg4  0  -  127480532  127481699  0,0,255

BED文件每行至少包括chrom，chromStart，chromEnd三列(必选);另外还可以添加额外的9列(可选)

必选的三列：

chrom：染色体或者是scaffold的名称，或scaffold是比染色体小一点的组装单位。
chromStart：染色体或scaffold中特征的起始位置。通常第一个碱基编号为0。
chromEnd：染色体或scaffold中特征的结束位置。

9个可选的BED字段：

name：定义每一行属性的名称
score：得分在0到1000之间，如果useScore参数为1，则得分是指灰度级别
strand：表示链的方向，+表示正向，或者-表示负向
thickStart：起始位置，例如，基因显示中的起始密码子
thickEnd：终止位置，例如：基因终止编码位置
itemRgb：RGB形式的RGB值，例如(255,255,255)。但是需要 itemRgb属性设置为On
blockCount：BED行中的外显子数目
blockSizes：用逗号分割的外显子的大小, 对应于blockCount的数目
blockStarts：用逗号分割的列表, 所有外显子的起始位置，数目也与blockCount数目对应

Sam

SAM(sequence alignment map)是一种序列比对的文件格式，Sam格式是高通量测序数据分析的常用格式，因为它可以快速查找与坐标重叠的比对(它有记录一些序列索引信息),并且是一种高效的存储方式，例如Bam就是Sam格式的二进制文件，是一种通用的格式。同时Sam格式也是是目前最常用的存放比对或联配数据的格式。无论是重测序，还是转录组，还是表观组，几乎所有流程都会产生SAM/BAM文件作为中间步骤，用于接下来分析。

Sam样例格式如下：

Sam格式数据可以分为两部分，分别是注释信息(header section)和比对结果部分(alignment section)，注释信息可有可无，都是以@开头，用不同的tag表示不同的信息，主要有以下几种格式：

@HD，说明符合标准的版本、对比序列的排列顺序
@SQ，参考序列说明
@RG，比对上的序列（read）说明
@PG，使用的程序说明
@CO，任意的说明信息

比对结果部分，每一行表示一个片段的比对信息，包括11个顺序固定的必选字段和一个可选的字段，字段之间用tag分割。这11个字段包括：

QNAME：比对片段的（read）的名称信息
FLAG：位标识，表明比对类型：paring，strand，mate strand等等
RNAME：比对上的参考序列名
POS，position缩写，read比对到参考序列上，第一个碱基所在的位置，没匹配上设置为0
MAPQ：Mapping quality缩写，比对的质量分数，越高说明位置越唯一且可信度越高
CIGAR：(Compact Idiosyncratic Gapped Alignment Report),简要比对信息表达式，其以参考序列为基础，使用数字加字母表示比对结果，比对结果信息,匹配碱基数，可变剪接等等
RNEXT：下一个片段比对上的参考序列的编号，没有另外的片段，这里是*，同一个片段，用=**
PNEXT：下一个片段比对上的位置，如果不可用，此处为0
TLEN：观察到的Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，不可用为0
SEQ：序列片段的序列信息，如果不存储此类信息设置为*，
QUAL：序列的质量信息，格式同FASTQ一样，read质量的ASCII编码

可选字段（optional fields)，格式如：TAG:TYPE:VALUE，其中TAG有两个大写字母组成，每个TAG代表一类信息，每一行一个TAG只能出现一次，TYPE表示TAG对应值的类型，可以是字符串、整数、字节、数组等：

为了方便大家理解，从网上找了个图：

Bam

Bam是Sam的二进制文件格式，Bam格式中的b是binary的意思，由于Sam格式文件大小通常是十分巨大的，所以为了减少存储量等因素而将Sam转换为二进制格式以便于分析

VCF

VCF(Variant Call Format)是用于描述SNP，INDEL和SV结果的文本文件,是存储变异位点的标准格式

以下是VCF格式的一个样例：

这个数据可以包括两个部分：

注释部分：##表示，可以找到接下来每一个位点的描述的tag
主体部分：包含10列数据，主题部分每一行代表一个variant的信息

分别是：

CHROM ：参考序列名称
POS ： variant所在的位置，如果是INDEL的话，位置是INDEL的第一个碱基位置
ID ： variant的ID。同时对应着dbSNP数据库中的ID，若没有，则默认使用.
REF ：参考序列的碱基
ALT ： variant的碱基
QUAL ： variants的质量。Phred格式的数值，代表着此位点是纯合的概率，此值越大，则概率越低，代表着次位点是variants的可能性越大（表示变异碱基的可能性）
FILTER ：用于表示次位点是否要被过滤掉
INFO ： variant的相关信息，这里有很多的内容
FORMAT ： variants的格式和基因型的信息

VCF的INFO

上面有一列的数据是INFO的列名，这里包含了很多其他信息，大家可以参考wiki的内容查看：

本次生物信息学数据格式介绍介绍部分就到这，欢迎和我讨论！

欢迎大家关注我的知乎专栏：从零开始生物信息学

相同内容也可以关注我的微信公众号: 壹读基因：

nlua

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2字段添加注释_从零开始生物信息学(8):常用数据格式(2)

前言这部分内容继续介绍没介绍完的生物学常用格式：BEDSamBamVCFBEDBED(Browser Extensible Data)格式也是一种常用的用于基因注释的数据格式。BED格式数据有专门开发的工具bedtools来专门处理，和之前提到的GFF文件有很多相似的地方。BED数据格式如下；chr7 127471196 127472363 Pos1 0 + 127471196 12...
复制链接

扫一扫