实战演练理论知识学再好,能付诸实践灵活运用才行,所以我们常强调知行合一,实践出真知。实战演练这个栏目就是带大家从头到尾完整复现单细胞文献分析流程。好了,干货多,屁话少,我们来看实战流程。
希望大家能有所收获!总的来说,Cell Ranger主要的流程有:拆分数据 mkfastq、细胞定量 count、定量组合 aggr、调参reanalyze,还有一些小工具比如mkref、mkgtf、upload、sitecheck、mat2csv、vdj、mkvdjref、testrun1首先是mkfastq拆分数据虽然这里用不到(因为我们下载的就是fastq数据),但是为了流程的完整还是要学习一下
目的:将每个flowcell 的Illumina sequencer's base call files (BCLs)转为fastq文件
特色: 它借鉴了Illumina出品的bcl2fastq,另外增加了:将10X 样本index名称与四种寡核苷酸对应起来,比如A1孔是样本SI-GA-A1,然后对应的寡核苷酸是GGTTTACT, CTAAACGG, TCGGCGTC, and AACCGTAA ,那么程序就会去index文件中将存在这四种寡核苷酸的fastq组合到A1这个样本
提供质控结果,包括barcode 质量、总体测序质量如Q30、R1和R2的Q30碱基占比、测序reads数等
可以使用10X简化版的样本信息表
它的示意流程:
两种使用方式:
# 第一种
$ cellranger mkfastq --id=bcl \
--run=/path/to/bcl \
--samplesheet=samplesheet-1.2.0.csv
# 第二种
$ cellranger mkfastq --id=bcl \
--run=/path/to/bcl \
--csv=simple-1.2.0.csv
# 其中id指定输出目录的名称,run指的是下机的原始BCL文件目录
# 重要的就是测序lane、样本名称、index等信息
samplesheet.csv文件就是illumina常规使用的,类似下面这种。它除了需要指定各种ID、name之外,还要根据不同的试剂盒版本调整[Reads]长度V2试剂盒R1序列长度为26bp(包括16bp的barcode+10bp的UMI),R2为98bp;V3试剂盒R1序列长度为28bp(包括16bp的barcode+12bp的UMI),R2为91bp
还有一种10X定制的简单化的csv文件,例如:Lane,Sample,Index
1,test_sample,SI-GA-A3
# 其中第一列指定lane ID,第二列是样本名称,第三列是index名称
使用简化版的这个文件,可以识别使用的试剂盒版本,然后自行调整reads的长度信息最后的结果就是三个文件:I1序列文件以及两个测序文件R1、R2
目录结构如下:
- tiny-bcl/outs/fastq_path/bcl/
- Sample1
- Sample1_S1_L001_I1_001.fastq.gz
- Sample1_S1_L001_R1_001.fastq.gz
- Sample1_S1_L001_R2_001.fastq.gz
自己分析的数据也要改成这种结构存放,方便后续分析2小Tip--指定fastq文件位置后续分析需要指定fastq位置,但是这些fastq文件可以由cellranger mkfastq得到,也可以利用s Illumina's bcl2fastq 、公共数据、10X的bamtofastq ,每种情况可能得到的fastq存放位置是不同的,那么如何根据不同情况进行指定呢?
第一种情况:
利用mkfastq或者bcl2fastq生成的文件,大概长这样
# 会有这几种选择方式[注意几种参数的设置]
# 1.所有mkfastq生成的样本
--fastqs=MKFASTQ_ID/outs/fastq_path
# 2. 多个flowcell生成的所有样本
--fastqs=MKFASTQ_ID/outs/fastq_path1,MKFASTQ_ID/outs/fastq_path2
# 3.所有bcl2fastq 生成的样本
--fastqs=/PATH/TO/bcl2fastq_output
# 4. 所有lanes上的test_sample1样本
--fastqs=MKFASTQ_ID/outs/fastq_path \
--sample=test_sample1
# 5. lane1上的test_sample1样本
--fastqs=MKFASTQ_ID/outs/fastq_path \
--sample=test_sample1 \
--lanes&