Haplotype-aware analysis of somatic copy number variations from single -cell transcriptomes
我觉得的 Highlight
- 通过进化树,使用迭代法在单细胞水平进行拷贝数变异分析
- 可以识别
等位基因特异性改变
的不同亚克隆谱系
- Numbat 整合了基因表达水平,等位基因,单倍体信息综合评估 CNV
公共数据:
我觉得有用的 Introduction
- 基因组不稳定性是肿瘤内异质性的关键因素
- 治疗过程中出现的抗治疗亚克隆细胞会使患者产生治疗抵抗
- 通过表达矩阵推断 CNV 的主要依据是染色体的扩增或者缺失会导致基因组特定区域内的基因表达水平上下调的改变。(因此其他原因导致的基因表达水平发生改变,这时候 inferCNV 就会产生误差)
- Allele-based approaches examine deviations of heterozygous allele frequency (‘B-allele frequency’, or BAF) caused by CNVs and are less affected by sample or cell type variations(基于等位基因改变推断 CNV 对细胞亚克隆类型不敏感,但是单细胞水平很难做)
- 由于单细胞测序技术本身存在局限性(这个局限主要是限制在10X,因为通量高,所以无法保证能够测到单个细胞所有表达的基因
limited coverage per cell
),所以如果在单细胞水平上分析 SNV很依赖亚克隆细胞群体(rely on aggregation of information across cells
)。因此实际上 CNV 的推断分析非常依赖亚克隆细胞群落的准确分群这部分不是文章的原话,但是大概意思差不多
我感兴趣的 Result
-
首先使用Cellsnp-lite对单细胞进行基因分型
这个软件我也重来没用过,查了一下发现是 2021 年 12 月的文章
Cellsnp-lite 可以在单细胞水平识别 SNP 需要 bam/sam/cram 文件格式作为输入
然后这里之所以要考虑到 SNP 的主要原因是要进行定相(这一部分我没理解到位),反正意思就是通过 SNP 进行单倍体基因型定相后推断 CNV 的准去率比仅通过共表达的准
<center>各个样本总体SNP</center>
可以看出 SNP 的密度在样本见的分布差异非常大,每兆碱基 16-68 个 SNP
<center>每个细胞的平均 SNP 覆盖率</center>
排除掉最后三个样本,细胞间 SNP 分布情况在样本间好像差异不大,但是感觉得排除掉 `nCount` 或者其他指标的影响
-
对比 SNP 和传统方法的区别
其中,横坐标代表的 SNP 位置,纵坐标代表的是等位基因频率,白色的部分是指正常区域,红色的部分指的是异常区域。 传统的方法是通过滑动窗口判断该位置的方差变异从而推断 CNV 事件。并且,传统的方法,就是基于共表达的方法无法纳入相位转换信息,示意图
在使用传统的方法时候,我们只能通过简单的 CNV 变异推断模型识别CNV。即认为,自然的和杂合性丢失是在 t 概率下发生随机变化。
而当引入单倍型相位信息的时候就可以在 Aberrant 区域识别发生相位转换的信息,从而得到额外的信息` (additional statistical power)`
此外,随着遗传距离的增加,相位强度会减弱,意思就是 SNPs 不稳定发生转换的概率增加。
并且,这时候 CNV 推断模型就变得复杂起来了:
简单来说,自然的状态下会以概率`t/2`转变为 `LoH-major` 和 `LoH-minor`两种单倍型,并且会以指数概率模型相互转换。然后由于这个马尔科夫链由若干个SNPs 构成,导致虽然传递的过程概率相同,但是终末状态会出现分布偏倚从而导致出现`LoH-major` 和 `LoH-minor`。为了验证这个结论,文章做了如下 `pseudo-test`

上图表示的是伪基因组分析,顶部是纯肿瘤,底部是纯正常样本,中间是不同比例的肿瘤。可以看出正常组中的 LOH 都是处于 0.5 附近,而纯肿瘤组中,出现了 `LoH-major` 和 `LoH-minor`。
-
CNV 识别
Numbat 采用两步方法:
- 识别等位基因平衡区域
- 基于表达水平变化,对平衡区域进行聚类
将变化水平最低的簇定义为二倍体区域
只能说不能说很像,简直一模一样
-
推断肿瘤克隆结构进化
因为在 scRNA 数据中,通常是不知道细胞的
Ident
,但是基于这么一个假设不同基因型的肿瘤细胞可能来源于相同的祖细胞
。因此在进行 CNV 推断的时候需要考虑到细胞的克隆进化过程。首先通过 HMM 识别所有可能得 CNV 分支。然后如果不同分支的 CNV 具有明显的重叠,则将这部分的全部合在一起构成一个 SubTree,在 SubTree 中进行排序,通过共表达和等位基因的偏差分布筛选出共 CNV 部分。
结语
文章很难,看不懂
After advisement, if you still have questions, you can send me an E-mail asking for help
Best Regards,
Yuan.SH
---------------------------------------
please contact me via the following ways:
(a) E-mail: yuansh3354@gmail/163/outlook.com
(b) QQ: 1044532817
(c) WeChat: YuanSh181014
(d) Address: School of Basic Medical Sciences,
Fujian Medical University, Fuzhou,
Fujian 350108, China