oracle函数pile,Pileup 格式详细说明

转自:

Pileup 格式最初是由Sanger Institute的Tony Cox 和 Zemin Ning 使用的,描述了染色体上每个位置的碱基信息。 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。

Pileup 文件一般是由SAMtools从sorted bam 文件生成。

samtools mpileup -f ../crrbwaidx/crr5ref.fa  -Q 15 -q 20 4_S4_L001.sorted.bam -o 4_S4_L001.pileup

mpileup 就是SAMtools生成pileup文件的命令(SAMtools 文档):

-f 后面是参考序列或者基因组

-q 是mapping quality的最小值, 默认值是0

-Q 是base quality的最小值,默认值是13

然后是输入文件*.sorted.bam, -o 后面是输出文件*.pileup

pileup 格式有几个变体,下面的是由SAMtools输出的默认格式:

seq1 272 T 24  ,.$.....,,.,.,...,,,.,..^+. <<

seq1 273 T 23  ,.....,,.,.,...,,,.,..A <<

seq1 274 T 23  ,.$....,,.,.,...,,,.,...    7<7;

seq1 275 A 23  ,$....,,.,.,...,,,.,...^l. 

seq1 276 G 22  ...T,,.,.,...,,,.,....  33;+<<7=7<<7

seq1 277 T 22  ....,,.,.,.C.,,,.,..G.  +7

seq1 278 G 23  ....,,.,.,...,,,.,....^k.   %38*<

seq1 279 C 23  A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:>

每一行由染色体,参考碱基在染色体中的位置(reference position),参考碱基(reference base),覆盖该位点的reads的个数,覆盖该位点的碱基(read bases) 和碱基质量(base qualities),之间由tab分开。

在read base那一列,每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。下面第一行是一个插入的例子,第二行是两个缺失的例子(有五个reads都出现了两个的缺失):

chr1    12994   G       20      ......,,,+1c,,,,,,,,,,, KK

chr1    13656   C       18      .-2AG....,-2ag,,-2ag.,.,-2ag....,-2ag,  FKKKKKKKKF7KKKKKK<

在read base那一列,‘^'是每条reads的开始,’^'后面跟的符号" ' "的ASCII十进制值减去33就是这条reads的mapping quality. '$'是每条reads的结束。如下:

chr1    13005   A       21      .....,,,,,,,,,,,,,^',^',^',     7KFFKFF

chr1    13006   G       24      .$.....,,,,,,,,,,,,,,,,,^'.     >KKFAKK7FKKKKKKKKFKKKFKB

reads开始和结束的标志是受到了Phil Green's CALF format 的启发。通过开始和结束的标志可以从pileup文件重建reads.

SAMtools 可以选择性的把mapping quality加到输出结果的每一行,这样会使输出的文件更大,但当只有一部分位点被提取出来时,这样做就有必要了(因为只提取一部分位点,开始的标志'^'就可能不会被包含着提取的位点,就没法知道每个reads base的mapping quality了.)。

a3a90e5fb4daf8503d633886f5a17024.png

每天进步一点点------YUV格式详细解释

YUV格式详细解释 YUV开放分类: 网络.计算机.手机.色彩学.影像学  概述  YUV(亦称YCrCb)是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式 ...

RTP 包格式 详细解析

H.264 视频 RTP 负载格式 1. 网络抽象层单元类型 (NALU) NALU 头由一个字节组成, 它的语法如下: +---------------+      |0|1|2|3|4|5|6|7 ...

avi格式详细介绍

百度:http://wenku.baidu.com/link?url=KB7qKc6UG4aeU-i9FtXeV8Uou4JHPceiyz3HNbzCrQw4phY-qRlcp3tTSwYPeIgdx ...

Mysql Binlog三种格式详细介绍

一.MySQL Binlog格式介绍 mysql binlog日志有三种格式,分别为Statement,MiXED,以及ROW! 查看binlog的格式的脚本: 二.binlog 的不同模式有什么区别 ...

&lpar;转&rpar; s-video vs&period; composite video vs&period; component video 几种视频格式详细说明和比较

之前对着几种视频格式认识不是很清晰,所以看数据手册的时候,看的也是稀里糊涂的. 因为项目中需要用到cvbs做视频输入,在元器件选型上,看到tw2867的数据手册上,有这么一句话: The TW2867 ...

sam格式详细说明

原文链接 https://www.jianshu.com/p/386f520e5de1 The SAM Format Specification(sam格式说明) 1 The SAM Format S ...

YUV格式详细解释与FFMPEG的关系

YUV主要的采样格式 主要的采样格式有YCbCr 4:2:0.YCbCr 4:2:2.YCbCr 4:1:1和 YCbCr 4:4:4.其中YCbCr 4:1:1 比较常用,其含义为:每个点保存一个 ...

NSDateFormatter格式详细列表一览

转自:http://www.cnblogs.com/xinus/archive/2012/10/29/NSDateFormatter_samples.html 前言:iOS开发中NSDateForma ...

C&num; 日期格式转【转】

使用:DateTime.ToString的方法(String, IFormatProvider)转换格式 using System; using System.Globalization; Strin ...

随机推荐

GitLab服务器搭建及配置

一.服务器环境 操作系统:CentOS release 6.5 (Final) GitLab版本: GitLab-shell:2.0.1 Ruby version: ruby 2.1.2p95 (20 ...

DLUTOJ &num;1306 Segment Tree&quest;

Description 有一个N个整数的序列(每个数的初值为0).每个数都是整数.你有M次操作.操作有两种类型: ——Add  Di  Xi 从第一个数开始每隔Di 个位置增加Xi ——Query L ...

Linq:切勿使用 Count&lpar;&rpar; &gt&semi; 0 来判断集合非空

原文(http://www.cnblogs.com/ldp615/archive/2011/12/11/2284154.html) Linq 出现之前,我们通常使用下面的方式来判断集合是否非空,即集合 ...

完全关闭IIS日志,包括System32下的LogFile

早上突然发现网站访问不了了,登陆服务器一看,是C盘满了. 查一看,是IIS产生了70多G的日志,但明明已关闭日志了,还是会产生. 产生的目录在:C:\Windows\System32\LogFiles ...

tiled卷积神经网络(tiled CNN)

这个结构是10年Quoc V.Le等人提出的,这里的tiled,按照 Lecun的解释是Locally-connect non shared.即是局部连接,而且不是共享的,这是针对于权重来说的.本文翻 ...

python-数据分析与展示(Numpy、matplotlib、pandas)---3

笔记内容整理自mooc上北京理工大学嵩天老师python系列课程数据分析与展示,本人小白一枚,如有不对,多加指正 0.pandas基于Numpy实现的,前者注重应用,后者注重结构 1.Series类型 ...

js插入排序

插入排序 平均时间复杂度O(n*n) 最差情况O(n*n) 最好情况O(n) 空间复杂度O(1) 稳定性:稳定 function insertSort (arr) { var len = arr.le ...

mysql 单表查询

一 单表查询的语法 SELECT 字段1,字段2... FROM 表名 WHERE 条件 GROUP BY field HAVING 筛选 ORDER BY field LIMIT 限制条数   二 ...

mysql - json串新增字段

1.建表 -- 建表 drop table if exists ta_product2; CREATE TABLE ta_product2( id int primary key auto_incre ...

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值