aggr代码 cellranger_CellRanger初探

公共数据库中的SRA 单细胞转录组数据究竟包含了哪些数据?CellRanger怎样利用10x平台下机数据进行下游一系列分析?这篇文章简单记录CellRanger 包括的主要分析步骤,纯理论。

SRA 原始数据转fastq

公共数据库的SRA 数据需要借助fastq-dump 转为fastq文件,然后进行质控、CellRanger定量等操作。相较于普通转录组数据,原始SRA数据会得到3个fastq文件,分别是Library 的Index(8bp)文件,包括长度为26bp 的Barcode(16bp)和UMI(10bp)的Read1文件,和测序reads文件。

conda install -c bioconda sra-tools ## 安装软件

wkd=/home/project/single-cell/MCC

cd $wkd/raw/P2586-4

cat SRR_Acc_List-2586-4.txt |while read i

do

time fastq-dump --gzip --split-files -A $i ${i}.sra && echo "** ${i}.sra to fastq done **"

done

### 单细胞数据参数为 --split-files 而不是 --split-3

i7 sample index (library barcode)

是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。它的作用就是在CellRanger的mkfastq 功能中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起,表示同一个样本。它保证了一个测序lane上可以容纳多个样本

Barcode

是10X特有的,用来区分GEMs,也就是对细胞做了一个标记。一般在拆分混样测序数据(demultiplexing)这个过程后进行操作,当然这也很符合原文的操作。

UMI

UMI就是Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量。它的主要作用是,处理PCR 扩增偏差,因为起始文库很小时需要的PCR扩增次数就越多,因为越容易引入扩增误差。

fastq文件更名

为什么要更名?CellRanger 定量过程输入文件指定命名格式。

如何更名?下图格式:

# 比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz

# 依次类推&#

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值