Illumina输出文件详解

Illumina测序原理(next-seq-550)

基本过程

Illumina测序包裹文库制备、簇生成、测序、数据分析四个过程。

  • 文库制备:主要是制作一些碎片化的核酸序列,并将这些碎片化的序列和接头序列连接起来。接头序列包括一段与测序芯片上的寡聚核苷酸(oligo)反向互补的一小段序列,同时如果需要也可以通过PCR插入一段index序列用于标记序列所属的样本。
  • 簇生成:该过程主要是桥式PCR的过程。在芯片上有两种寡聚核苷酸,首先被测序的单链DNA的接头与其中一种寡聚核苷酸识别互补,随后以被测序的单链DNA作为模板合成反向互补的DNA序列。合成完毕以后,进行核酸变性,洗去被测序的单链DNA。而后,被合成的DNA序列由于在3‘段的接头序列中存在与第二种寡聚核苷酸的互补序列,因此可以与第二种寡聚核苷酸序列识别。识别以后,会根据模板连生成一段反向互补序列。重复上述过程,完成簇生成。最后会切去第二种寡聚核苷酸延伸出的单链DNA。
  • 测序的过程即加入引物进行测序,核苷酸可以通过合成发出的荧光确定。具体原理参考illumina手册。双端测序则会在该过程结束后重新进行桥式PCR并切去第一种寡聚核苷酸延伸的单链DNA,并重新执行测序过程。
  • 数据分析过程,使用illumina专用的Sequencing Analysis Viewer分析生成BCL、图像等原始文件,再通过bcl2fastq即可获得fastq序列并继续后续分析。

基本概念

  • 流动槽(flow Cell):该名称为Illumina的官方术语,也称作芯片,为一次性用品。其表面遍布寡聚核苷酸。
  • 泳道(lane):一个流动槽有4个泳道。泳道指带有专用输入输出端口的物理通道。
  • 表面(surface):流动槽会在顶面和底面两个表面成像。一个小区的顶面成像后,该小区的底面会接着成像,之后会移至下一个小区。
  • 每泳道测绘带数(swaths per lane):测绘带是泳道中的一列小区。
  • 相机片段(camera segments):仪器使用6个相机对流动槽成像,为每个泳道成像3个片段。
  • 每个相机片段的的每测绘带小区数(tiles per swath per camera segment):小区是流动槽上的区域,相机将其视为一个图像。
  • 小区(tile):小区是流动槽上以相机的视野定义的小成像区域。
流动槽组件高输出中等输出
泳道44
表面22
每泳道测绘带数31
相机片段33
每个相机片段的每测绘带小区数1212
成像小区总计864(相乘)288(相乘)

注:泳道1和3(泳道对A)同时成像。泳道2和4(泳道对B)再泳道对A完成后成像。

注:相机编号为1-6。相机1-3对泳道1成像。相机4-6对泳道3成像。对泳道1和3成像后,成像模块会沿x轴方向移动,以便对泳道2和4成像。

BCL文件(Base Call Files)

BCL文件是由Illumina测序仪生成的测序文件,包含测序的信息。包括簇数和碱基信息。

  • 簇数:无符号32位整数(unsigned int, 4 Byte)表示。由开头的4个字节存储。
  • 碱基信息:无符号8位整数(unsigned char, 1Byte)表示。低位0-1比特位(bit)表示碱基(00-A,01-C,10-G,11-T),2-7比特表示碱基的质量分数,向右移2位即表示为该碱基的质量分数。

注:整数在内存中表示时从高地址向低地址表示。18 18 AA 08(16进制)实际表示为08 AA 18 18,即需要倒序为真实整数。

注:bit位由左向右为7-0。

例:

地址数据(Hex dump)
0x00000000-0x0000000318 18 AA 08145365016(08AA1818,簇数)
0x0000000481(1000 0001)01 -> C,1000 00 -> 32
0x0000000580(1000 0000)00 -> A,1000 00 -> 32
0x0000000C55(0101 0101)01 -> C,0101 01 -> 21
0x0000000F3B(0011 1011)11 -> T,0011 10 -> 14
………………

BCI文件(Base Call Index Files)

本文件与bcl.bgzf.bci文件不同。本文件主要表征的是每个泳道中的每个小室中簇的数量,每个簇即对应一条Read。每条记录由两个无符号32位整数表示。其中低32位标识tile的编号,高32位标识小室中的簇的数量。

例:

地址数据(Hex dump)
0x00000000-0x000000075D 2B 00 00 / 35 EE 09 0011101(小室编号)/ 650805(簇数量)
0x00000008-0x0000000F5E 2B 00 00 / D8 DF 09 0011102 / 647128
0x00000010-0x000000175F 2B 00 00 / 00 BE 09 0011103 / 638464
0x000006B8-0x000006BF10 5B 00 00 / 60 3A 0A 0023312 / 670304
………………

小室编号规则:

  • 表面:1表示顶面,2表示底面
  • 测绘带:1、2或3
  • 相机:1、2、3、4、5或6
  • 小区:01、02、03、04、05、06、07、08、09、10、11、12
  • 如:小区编号12508表示顶面、测绘带2、相机5和小区8

BGZF文件(Block GNU ZIP File)

该文件是BCL文件的压缩文件,压缩格式为BGZF格式,该格式与gzip格式兼容,可以使用gunzip命令或者7z解压。该文件实际上由按照序列排列的GNU ZIP压缩块组成,每个压缩块均可表示一个独立的gzip文件。即将gzip文件拼接成1个文件即是bgzf文件,拥有快速随机读写的能力。每个gzip压缩前后均不超过64KB。

  • 每一个gzip块的开头序列为:1F 8B 08 04 00 00 00 00 00 FF 06 00 42 43 02 00;
  • 每一个gzip块的结束序列为:1f 8b 08 04 00 00 00 00 00 ff 06 00 42 43 02 00 1b 00 03 00 00 00 00 00 00 00 00 00;

开头信息为:

主要:

FieldDescriptionTypeValue
ID1gzip IDentifier1uint8_t31
ID2gzip IDentifier2uint8_t139
CMgzip Compression Methoduint8_t8
FLGgzip FLaGsuint8_t4
MTIMEgzip Modification TIMEuint32_t
XFLgzip eXtra FLagsuint8_t
OSgzip Operating Systemuint*_t
XLENgzip eXtra LENgthuint16_t

附加1:

FieldDescriptionTypeValue
SI1Subfield Identifier1uint8_t66
SI2Subfield Identifier2uint8_t67
SLENSubfield LENgthuint16_t2
BSIZEtotal Block SIZE minus 1uint16_t

附加2:

FieldDescriptionTypeValue
CDATACompressed DATA by zlib::deflate()uint8_t[BSIZE-XLEN-19]
CRC32CRC-32uint32_t
ISIZEInput SIZE (length of uncompressed data)uint32_t

本文件的任意压缩块均包含上面的全部内容。

BGZF.BCI(Block Compress Index,可能叫这个名字)

需要注意的是这个文件与bci(Base Call Index Files)文件是不同的,本文件为BGZF压缩文件的索引文件。但本文件与bci(Base Call Index Files)文件是存在对应关系的。与bci文件相同的是,本文件的总记录数量与bci(Base Call Index Files)文件的记录数量是相同的,每一条记录均表示为一个小室(Tile)。由头信息与记录组成。

需要值得注意且极其重要的是,每一条记录都对应的都是一个小室,且每个小室都由不止一个gz块组成。每条记录的低16位与高48位组成,高48位即本小室开始的gz块在整个bgzf文件中地址。低16位表示该gz块解压后的数据块中本小室开始的地址。

如:04 00 / 00 00 00 00 00 00,表示第一小室(如泳道1的编号11101小室)的起始gz块的地址在整个bgzf文件中为0x00 00 00 00 00 00,04表示本小室在第一块gz块解压后的地址0x04开始。

如:39 EE / B2 E3 02 00 00 00为第二条记录,表示第二个小室的起始gz块的地址在整个bgzf文件中为0x00 00 00 02 E3 B2,39 EE表示第二小室在这个gz块解压后的数据的地址0xEE 39开始。

例:

地址数据(Hex dump)
0x00000000-0x0000000300 00 00 000(头信息)
0x00000004-0x00000007D8 00 00 00216 (头信息,小室数量)
0x00000008-0x0000000F04 00 / 00 00 00 00 00 004 / 0(记录)
0x00000010-0x0000001739 EE / B2 E3 02 00 00 0060985 / 189362
………………

FILTER文件(簇过滤信息文件)

本文件主要包含的是每个簇的是否被过滤的信息。其中0-12 Byte表示该文件的头信息,包括头、版本、簇数。后面信息则为记录,每条记录为1 Byte。

例:

地址数据(Hex dump)
0x00000000-0x0000000300 00 00 000(头信息)
0x00000004-0x0000000703 00 00 003(文件版本号)
0x00000008-0x0000000B18 18 AA 08145365016(08AA1818,簇数)
0x0000000C00False 未通过过滤,在Fastq的头中用Y表示
0x0000013001True 通过过滤,在Fastq的头中用N表示
………………

LOCS文件 (簇位置信息文件)

本文件主要记录的是每个簇所在的位置信息。其中0-12 Byte表示该文件的头信息。后面每8 Byte为一条记录,每条记录包括x轴位置信息和y轴位置信息。

例:

地址数据(Hex dump)
0x00000000-0x0000000301 00 00 001 (Uint32) 头信息
0x00000004-0x0000000700 00 80 3F1.0(Float32)头信息
0x00000008-0x0000000BEF E1 2F 0236692463(022FE1EF,簇数)
0x0000000C-0x0000001332 92 5B 43/21 EC 03 40219.57(Float32,x轴坐标)/ 2.06 (Float32, y轴坐标)

坐标信息转换到Fastq文件中时需要进行一定的转换,具体转换公式如下:

_pos = (Uint32)record_pos*10+1000.5

Fastq格式文件 (Illumina)

FieldDescription
@每一条记录的开始
instrument设备号
run ID系统运行编号
flow cell ID流动槽编号
lane泳道编号
tile小区编号
x_posx轴坐标
y_posy轴坐标
UMI[Optional] The UMI sequence (A, G, C, T, and N). When the sample sheet specifies UMIs, a plus sign separates the Read 1 and Read 2 sequences.[后接一个空格]
read1/2分别表示单端或双端中序列1或序列2,单端测序仅有1,双端存在1和2
is filteredY-表示被过滤,N-表示未被过滤
control number0—Control bits are not turned on.*
index sequence or sample number[可选]接头序列或者样本的编号

第二行为碱基序列;

第三行为注释,一般为+;

第四行为质量信息,为phred33格式表示。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
trim_galore是一个用于质量修剪和去除Illumina测序数据中的适配序列的工具。它主要用于处理双末端测序数据。trim_galore的输出文件通常包括修剪后的fastq文件和一个HTML报告文件。 修剪后的fastq文件是通过去除reads两端低质量碱基和适配序列来得到的。trim_galore会根据用户设置的阈值,将质量分数低于该阈值的碱基删除,并维持所需的读长。这样可以提高测序数据的质量和准确性。修剪后的fastq文件命名通常在原文件名的基础上添加"_trimmed.fq"后缀。 trim_galore还生成一个详细的HTML报告文件,提供有关修剪过程的详细信息和统计数据。报告中包含每个样本的修剪前后质量分数分布、剩余reads数量、适配序列检测结果等信息。通过查看HTML报告,用户可以快速评估修剪的效果和数据质量。 trim_galore的输出文件使用户能够在进一步分析前得到经过质量修剪的、较为干净的fastq文件。这些修剪后的文件可以进一步用于重测序、组装、差异表达等各种生物信息学分析。此外,HTML报告还可以提供有关测序样本的质量评估结果,方便用户选择样本进行进一步的操作。 总之,trim_galore的输出文件包括修剪后的fastq文件和一个详细的HTML报告文件。修剪后的fastq文件经过质量修剪和适配序列去除,用于后续的生物信息学分析。HTML报告提供了修剪结果的详细信息和统计数据,以及质量评估结果,方便用户进行进一步的操作。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值