10X单细胞转录组测序—常规流程

alonlie

已于 2023-08-01 16:49:09 修改

阅读量1.6k

点赞数 2

分类专栏：生信分析文章标签： r语言 linux

于 2023-07-18 20:28:40 首次发布

本文链接：https://blog.csdn.net/lz2105/article/details/131795612

版权

本文详细介绍了10X单细胞转录组测序的上游和下游分析流程，包括conda环境搭建、软件安装、数据下载、SRA转fastq、cellranger count分析，以及后续的R包使用、数据过滤、标准化、高变基因识别、细胞周期分析、PCA和非线性降维等。重点强调了关键文件和分析步骤，为单细胞测序数据分析提供了全面指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章中其中用到的文件获取方式https://pan.baidu.com/s/1HCsHRXNX9Il8u8RIPXSEug?pwd=2626

1.上游分析

1.1 安装conda、sratoolkit、cellranger

#安装conda，最好去官网下载最新版
cd ~
wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh
bash Anaconda3-2021.11-Linux-x86_64.sh

#安装sratoolkit，用于下载sra数据，同时也会安装fastq-dump
#去官网下载最新版本，conda安装的不好用，https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
#conda install -c daler sratoolkit

#安装cellranger
#官网下载最新版cellranger
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
#执行以下命令进行安装
tar -xzvf cellranger-6.1.2.tar
#解压完即可使用，但需要添加到环境变量

1.2 使用conda进行常用软件安装

conda install -y -c bioconda aspera-cli bwa samtools bedtools bowtie2 fasterq-dump hisat2 cutadapt multiqc

1.3 参考基因组下载

##1.2 mm10
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

md5sum refdata-gex-mm10-2020-A.tar.gz
#886eeddde8731ffb58552d0bb81f533d refdata-gex-mm10-2020-A.tar.gz
tar -xzvf refdata-gex-mm10-2020-A.tar.gz

##1.3 hg38
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz

md5sum refdata-gex-GRCh38-2020-A.tar.gz
#dfd654de39bff23917471e7fcc7a00cd refdata-gex-GRCh38-2020-A.tar.gz
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz

1.4 文件夹创建

mkdir 1.sra 2.raw_fastq 3.cellranger

1.5 数据下载

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112302
#SRA Run Selector里面选择需要的数据下载，在该篇文章中是下载6个tumor数据。选择要下载的数据样本后点击Accession List获取相应的id号。并将其命名为id，保存在1.sra文件夹中。

cd 1.sra
cat id | while read id;do (prefetch $id &);done

1.6 SRA转fastq

cd 2.fastq
ln -s ../1.sra/SRR* ./
ls SRR* |while read id;do (nohup fasterq-dump -O ./ --split-files -e 6 ./$id --include-technical & );done

#上一步运行完会非常占用空间，可压缩节省空间。
ls SRR*fastq | while read id;do gzip $id;done

1.7 cellranger count流程

##修改文件名，改成cellranger可识别的文件名。
cat ../1.sra/id |while read id ;do (mv ${id}_1*.gz 
${id}_S1_L001_I1_001.fastq.gz;mv ${id}_2*.gz ${id}_S1_L001_R1_001.fastq.gz;mv 
${id}_3*.gz ${id}_S1_L001_R2_001.fastq.gz);done

##运行cellranger
#指定参考基因组
ref=/home/data/vip10t17/software_install/10x_refernce/refdata-gex-GRCh38-2020-A
ls *.fastq.gz | cut -d "_" -f 1 |uniq |while read id;do cellranger count --id $id --transcriptome $ref --fastqs 2.raw.fastq/ --sample $id --nosecondary --localcores 10 --localmem 30;done

##参数解读
--id 指定输出文件夹的名字
--transcriptome 指定参考基因组的路径
--sample 指定需要处理的fastq文件的前缀
--expect-cell 指定预期的细胞数目，默认参数是3000个
--localcores 指定计算的核心数
--mempercore 指定内存大小 GB
--nosecondary 不需要进行降维聚类（因为后期会用R可视化）
--chemistry，默认是自动识别chemistry，但是有些时候识别不出chemistry的时候，需要加入参数特别标明