aggr代码 cellranger_cellranger使用的初步探索(1)

本篇笔记是按照单细胞天地公众号教程里的代码练习的,因为之前了解到cell ranger运行需要大量的内存,无奈自己的电脑配置不行,现在有了服务器,那就要把这一节补起来~

参考文章:

1.单细胞实战(二) cell ranger使用前注意事项

2.单细胞实战(三) Cell Ranger使用初探

3.单细胞实战(四) Cell Ranger流程概览

练习数据:GSE117988。首先在GEO网站上看一下作者对数据的处理方法:

对于这几个原始数据来说,其中包括:Read1-26个碱基(UMI),read2-8个碱基(Index),Read2-98个碱基(RNA read)。对原始的BCL文件使用cell ranger进行mkfastq,然后用cell ranger的count进行分析,使用STAR进行比对(基因组GRCh38和HM011556.1)。

(一)下载sra数据

#!/bin/bash

#module load sratoolkit/2.9.1(这是我调用服务器里的软件的命令,如果是自己的电脑,请忽略这一行)

cat SRR_Acc_List.txt | while read i

do

prefetch $i -O `pwd` && echo "**${i}.sra done**"

done

(二)提取fastq文件

#!/bin/bash

# module load sratoolkit/2.9.1

for i in SRR77229*

do

fastq-dump --gzip --split-files ./$i

done

这一步每一个SRA文件都会生成3个fastq文件。分别标注_1, _2, _3。现在来看看每一个fastq文件都是什么样子的:

$ zless -SN SRR7722942_1.fastq.gz | head #这是每一个_1的read,这里显示每一条read都是8个碱基长度,那么就是上面我们提到的Index。

@SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=8

CGCTATGT

+SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=8

GGGGGIII

@SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=8

CGCTATGT

+SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=8

GGGGGIII

@SRR7722942.3 SN367:911:HKMNCBCXY:2:1101:1404:1952 length=8

CGCTATGT

$ zless -SN SRR7722942_2.fastq.gz | head #标注_2的fastq文件长度是26个碱基,也就是上面说的细胞barcode(UMI)

@SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=26

CGTTGGGGTCTGCGGTAAATAGGCCA

+SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=26

GAGGGIGGIIGGIIIIIGIGGGGGGI

@SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=26

CTTAACTTCTCGATGAAGGGGTCTCG

+SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=26

GGGGGIIIIIIIIIIGIIIIIIGIII

@SRR7722942.3 SN367:911:HKMNCBCXY:2:1101:1404:1952 length=26

AAGACCTTCGCCCTTATACCGGTCCC

$ zless -SN SRR7722942_3.fastq.gz | head #标注_3的fastq文件每一个Read是98个碱基,也就是RNA的read

@SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=98

NNNNNGTGGTATCAACGCAGAGTACATGGGGCNCTTACCGCCATCTTGGCTCCTGTGGNTGNCTGCTGGGAACGGGACTTCTAAAAGNNNNTATGTCT

+SRR7722942.1 SN367:911:HKMNCBCXY:2:1101:1192:1900 length=98

#####<.>

@SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=98

CTCAGCCTTAGCCCTGTGCCCCCTGAAACAGCTGCCACCATCACTCGCAAGAGAATCCCCTCCATCTTTGGGAGGGGTTGATGCCAGACATCACCAGG

+SRR7722942.2 SN367:911:HKMNCBCXY:2:1101:1112:1988 length=98

@SRR7722942.3 SN367:911:HKMNCBCXY:2:1101:1404:1952 length=98

GGAGGAGATGGGCAGCATTGTTAAGAGATTGGTACCACTGAGCAAATATGTTGAGAATGATGATGGCAAGGTTTCTCCCTGTTAGAGAAGGTATTTGT

(三)修改fastq文件名

根据10x官网上的说明,在后续处理数据之前,最好把fastq文件的名字改一下:here

改成如下格式:

这里就可以对应上面文章里描述的,index文件改成I1,Read1(UMI)改成R1,Read2(RNA read)改成R2。所以这里fastq_1文件应该改成I1, fastq_2文件改成R1,fastq_3文件改成R2:

$ cat SRR_Acc_List.txt

SRR7722937

SRR7722941

SRR7722938

SRR7722939

SRR7722940

SRR7722942

$ cat SRR_Acc_List.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.gz ${i}_S1_L001_R2_001.fastq.gz);done

改后文件名就都变成了下面这样:

(四)fas

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值