实验记录 | 梳理关键结果

【大纲】

  • 基本素材:
    (1)文献:https://www.biorxiv.org/content/10.1101/2020.01.01.892562v1.full
    (2)ORBC的处理流程:https://github.com/tianshilu/QBRC-Somatic-Pipeline
  • 今天下午要完成的事情:
    (1)根据文献理明白,文献分析10X的数据,得到的关键结果是什么?
    (2)下载实验数据,数据的背景(研究什么问题)是什么?弄清楚实验分析从哪一处的数据开始?
    (3)梳理ORBC处理流程,开始运行。
一。 实验数据

而且我突然醒悟到,其实没有必要非要用10X的数据来分析,如果能够用其他类型的数据来跑一下流程我觉得就是现阶段最现实的目标。
到时候再进一步的了解一下,不同的数据的区别是什么,应该可以做到很好的迁移。

  • 10X Genomics
    数据链接:https://www.10xgenomics.com/resources/datasets/
数据集1数据集2备注
vdj_v1_hs_nsclcvdj_v1_hs_pbmc2预印版上的注释
Vdj_v1_hs_pbmc2_tpbmc4k正式发表文章上的注释

原始的数据集,显然是有点大的(一个原始的fastq文件就要~70GB,相当于我的系统所有的容量了)。

(1)nsclc:
https://www.10xgenomics.com/resources/datasets/nsclc-tumor-5.0.0
(2)pbmc:
https://www.10xgenomics.com/resources/datasets/3-k-pbm-cs-from-a-healthy-donor-1.0.0

所以,先把用文章中的测试数据的想法放一放。

  • The CTCL ECCITE-seq dataset

ECCITE-seq
是10X单细胞测序技术的变体,同时对转录组,蛋白质,T细胞受体的克隆型进行测序。Mimitou et al.将这个技术应用到一个皮肤T细胞淋巴瘤(CTCL)的病人。在皮肤T细胞淋巴瘤中,起源于同一个T细胞的恶性T细胞共享一个TCR。

GEO: GSE126310

我们主要聚焦的对象是CTCL的患者。

样本简介存放位置
CTCL-cDNARNA
CTCL-ADT抗体所对应的蛋白在一个细胞表面上的表达量
CTCL-HTO
CTCL-TCRabT细胞受体克隆型ab
CTCL-TCRgdT细胞受体克隆型gd

有点暂时弄不清楚。但是,又必须用这个数据。
(1)这是本文作者所使用的数据,用sclineager跑,并得到了结果。
(2)与我的数据集类型一致,都是10X。
出于以上两点考虑,我必须弄明白需要使用/下载哪一套数据,从哪里开始处理。

链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7521737/
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3596104

发邮件询问作者的回复:

  • ADT stands for Antibody Derived Tag, and it’s the cell barcode-by-antibody barcode count matrix for the phenotypic surface markers used to stain the cells
  • HTO stands for Hashtag Oligo and it’s a cell barcode-by-hashing barcode count matrix for the hashing antibodies used to stain the cells
  • TCRab, TCRgd are the count matrices for the TCRab and TCRgd transcripts respectively.
  • Unfortunately due to restriction for patient protection we couldn’t publish raw data for cDNA and TCRab, only the processed count matrices. Raw data for ADT and HTO are available.
二。关键结果
1。fastq文件的分离与比对。

(1)分离。
The 10x Genomics single-cell sequencing platform outputs the raw sequencing reads of all cells in one Fastq file. We developed ScSplitter to split the reads in the original Fastq file by their cell of origin using their cell barcode sequences.
(2)比对。
All reads were aligned to an appropriate reference genome using STAR and reads that failed to align were dropped. For reads sharing the same identical cell barcodes and UMIs, their alignment positions were compared and the reads that aligned to a position farther than the cutoff (default: 500 bp) from the median alignment position were removed. For paired reads, two median alignment positions were calculated and pairs that contain at least one read that fits the above criterion were kept. Output reads were grouped by cell identity and saved as separate Fastq files. At least 3,000 reads were required for a cell to be retained.

2。mutation calling

在这里插入图片描述

3。使用SClinegar分析数据
  • tSNE图

使用SClineager分析CTCL数据,并在33个变异的VAFs的tSNE空间中绘制了该患者T细胞的分布。

TCR克隆最为优势的T细胞形成一个簇,而另一一些T细胞则形成另一个集群。

变异(chr6 2580850 C→T)仅在恶性T细胞克隆中被发现。这种突变可能标志着CTCL细胞的两个亚克隆:其中一个亚克隆与正常T细胞更为相似,而另一个亚克隆则为恶性T细胞。

因此,SClineager成功的重建了CTCL细胞的谱系关系和基因型,同时也揭示了恶性T细胞在致瘤事件发生后开始与正常T细胞群发生遗传分化。
tSNE图
图注:CTCL和非恶性T细胞突变VAFs的tSNE分析。右面板显示与左面板相同的tSNE图,但根据是否在该细胞中检测到特定变体,点可以是实心的,也可以是空的。

SiFit:另一个推断肿瘤细胞进化谱系的算法。
如下图所示,这种工具无法将恶性增殖的细胞与其他细胞区分开来。如果我们只检查在所有细胞中完全可以观察到的变异,我们只剩下三个突变,使得tSNE不适用。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值