三代测序知识学习----Sequel
(2017-03-26 22:38:34)
转载▼
分类: 三代 |
知识链接:http://www.pacb.com/blog/new-chemistry-software-sequel-system-improve-read-length-lower-project-costs/
1:2017年1月23号,发布了新的测序试剂V2 chemistry,和分析软件 V4 software,平均读长为10-18 kb,有一半的测序读长大于20k,测序有效数据量范围在 5-8 Gb
2: Sequel System系统现在可以建到80 kb的文库
3:SMRTanalysis分析从3.0版本以后,数据产生的格式由bax.h5变为BAM格式。其索引文件也由原来的 cmp.h5变为 pbi一开始的时候PacBio RS只产生一个bas.h5文件,包含了所有的信息。后来伴随着测序深度和读长的增加,目前会产生1个bas.h5文件和三个bax.h5文件,可以使用bax2bam转化为bam:
bax2bam m.1.bax.h5 m.2.bax.h5 m.3.bax.h5
输出为:m.subreads.bam
4:目前三代可以用做测试数据集合的网页链接:
https://github.com/PacificBiosciences/DevNet/wiki/Datasets
5:对bam文件建立索引
pbindex m.subreads.bam 生成文件:m.subreads.bam.pbi
pbindex m.aligned_subreads.bam 生成文件:m.aligned_subreads.bam.pbi
6:Quality Value (QV): The total probability that the basecall is an insertion or substitution or is preceded by a deletion. QV = -10 * log10(p). For example, QV 20 is 99% accurate, QV 30 is 99.9% accurate, and QV 50 is 99.999% accurate.
7:三代错误组成:
Those 15% of errors constitute of 11% insertions, 4% deletions and 1% mismatches.