第02周-用米氏方程解决单细胞转录组dropout现象

用米氏方程解决单细胞转录组dropout现象

米氏方程(Michaelis-Menten equation): v=Vmax × [S] /(Km+[S])

在假定存在一个稳态反应条件下推导出来的,其中 Km 值称为米氏常数,Vmax是酶被底物饱和时的反应速度,[S]为底物浓度。

Km值的物理意义为反应速度(v)达到1/2Vmax时的底物浓度(即Km=[S]),单位一般为mol/L,只由酶的性质决定,而与酶的浓度无关。可用Km的值鉴别不同的酶。

今天要介绍的这篇文章提出了一个算法,R包是:M3Drop , 文章是:Modelling dropouts for feature selection in scRNASeq experiments

挑选重要基因

目前已有的寻找单细胞转录组测序数据中的**重要基因(feature selection)**的方法都不够好,比如 scLVM 主要是根据先验基因集,比如cell-cycle or apoptosis来区分细胞。与此相反,基于 highly variable genes (HVG) 的方法挑选到的变化量大的那些基因很可能是技术带来的误差。而且低表达量基因的变动往往大于高表达量基因,而且所谓的表达变化大也并没有很好的生物学解释。
一个比较好理解的概念是差异基因,但是需要预先把细胞群体分组后进行比较才能得到,而很多时候细胞太相似了,没办法很好的分开。像PCA或者t-SNE这样的降维方法也可以用来挑选重要基因,但它们也受制于系统误差或者批次误差等等。
dropout是scRNASeq数据的一大特点,就是很多基因在某些细胞根本就不表达,但是在另外的细胞却高表达。这篇文章作者对全长转录本数据和基于UMI的表达量数据分别提出了对应的解决方案,Michaelis-Menten equation 和 depth adjusted negative binomial (DANB)

单细胞转录组数据里面的dropouts可以达到50%,但是通常认为这个dropouts是因为在文库构建的过程中,有部分基因没有被成功的反转录,是一个酶促反应。
所以作者用Michaelis-Menten 来建模。

比较了9种 feature selection 方法,

使用它们分别对基因排序,算法如下:

  • by the magnitude of their loadings in principal component analysis (PCA)
  • by the strength of their most negative gene-gene correlation (Cor)
  • by their relative Gini index (Gini)
  • M3Drop dropouts-mean expression curve (M3Drop)
  • the squared coefficient of variation (CV2)
  • mean expression relationship (HVG)
  • the dispersion-mean expression relationship fit by DANB (NBDisp)
  • the dropouts-mean expression relationship fit by DANB (NBDrop).

这些算法都不需要预先对样本进行分类,是无监督的算法。

  • differentially variable (DV)genes
  • highly variable (HV) genes
  • differentially expressed (DE) genes

单细胞转录组数据的batch effects比较严重,所以 feature selection 过程的一个主要目的就是降低技术误差的影响,集中在有生物学意义的差异上面。

公共数据集

作者比较了 5个公共数据集,都是小鼠的胚胎细胞,含有17~255个细胞的测序数据,包括zygote to blastocyst.

  • Tung et al. (2017) [12] considered iPSCs from three different individuals and performed three replicates of UMI-tagged scRNASeq and three replicates of bulk RNASeq for each. (GSE77288 ).

  • For Kolodziejczyk et al. (2015),we considered ESCs grown under two conditions: alternative 2i and serum for which there were three replicates of scRNASeq and two replicates of bulk RNASeq.( E-MTAB-2600 )
    对bulk转录组数据用了3种方法找差异基因,分别是 DESeq2,edgeR,limma-voom

    只有3种方法都是 5% FDR的差异基因才认为是阳性标准基因集,那些3种方法都在 20% FDR的非差异基因认为是阴性金标准。

  • 1,915 positives, and 8,398 negatives for the iPSCs

  • 709 positives and 11,278 negatives for the ESCs
    有了这些基因,就可以计算ROC

单细胞转录组数据文章一般分成下面两大类:

第一大类是:deep sequencing of full-transcripts for a relatively small number of cells
代表性的文章如下:

  • Accounting for technical noise in single­cell RNA­seq experiments. Nat. Methods 10,​ 1093–1095 (2013).
  • Fast, scalable and accurate differential expression analysis for single cells. (2016). doi:10.1101/049734
  • Single­cell RNA­seq reveals dynamic, random monoallelic gene expression in mammalian cells. Science 343,​ 193–196 (2014). 14. Brennecke, P. et al. Accounting for technical noise in single­cell RNA­seq experiments. Nat. Methods 10,​ 1093–1095 (2013).
  • Dynamics of Global Gene Expression Changes during Mouse Preimplantation Development. Dev. Cell 6, 117–131 (2004).
  • Roles of CDX2 and EOMES in human induced trophoblast progenitor cells. Biochem. Biophys. Res. Commun. 431, 197–202 (2013).

第二类是:high-cell number, low-depth sequencing of 3’ or 5’ ends of transcripts tagged with unique molecular identifiers
代表性的文章是:

  • Quantification noise in single cell experiments. Nucleic Acids Res. 39,​ e124 (2011).
  • Quantification of mRNA in single cells and modelling of RT­qPCR induced noise. BMC Mol. Biol. 9,​ 63 (2008).
  • ZIFA: Dimensionality reduction for zero­inflated single­cell gene expression analysis. Genome Biol. 16,​ 241 (2015).
  • DNA methylation dynamics during epigenetic reprogramming in the germline and preimplantation embryos. Genes Dev. 28, 812–828 (2014).
  • Genetic programs in human and mouse early embryos revealed by single­cell RNA sequencing. Nature 500,​ 593–597 (2013).

(文章转自jimmy 的2018年阅读文献笔记)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于YOLOv9实现工业布匹缺陷(破洞、污渍)检测系统python源码+详细运行教程+训练好的模型+评估 【使用教程】 一、环境配置 1、建议下载anaconda和pycharm 在anaconda中配置好环境,然后直接导入到pycharm中,在pycharm中运行项目 anaconda和pycharm安装及环境配置参考网上博客,有很多博主介绍 2、在anacodna中安装requirements.txt中的软件包 命令为:pip install -r requirements.txt 或者改成清华源后再执行以上命令,这样安装要快一些 软件包都安装成功后才算成功 3、安装好软件包后,把anaconda中对应的python导入到pycharm中即可(不难,参考网上博客) 二、环境配置好后,开始训练(也可以训练自己数据集) 1、数据集准备 需要准备yolo格式的目标检测数据集,如果不清楚yolo数据集格式,或者有其他数据训练需求,请看博主yolo格式各种数据集集合链接:https://blog.csdn.net/DeepLearning_/article/details/127276492 里面涵盖了上百种yolo数据集,且在不断更新,基本都是实际项目使用。来自于网上收集、实际场景采集制作等,自己使用labelimg标注工具标注的。数据集质量绝对有保证! 本项目所使用的数据集,见csdn该资源下载页面中的介绍栏,里面有对应的下载链接,下载后可直接使用。 2、数据准备好,开始修改配置文件 参考代码中data文件夹下的banana_ripe.yaml,可以自己新建一个不同名称的yaml文件 train:训练集的图片路径 val:验证集的图片路径 names: 0: very-ripe 类别1 1: immature 类别2 2: mid-ripe 类别3 格式按照banana_ripe.yaml照葫芦画瓢就行,不需要过多参考网上的 3、修改train_dual.py中的配置参数,开始训练模型 方式一: 修改点: a.--weights参数,填入'yolov9-s.pt',博主训练的是yolov9-s,根据自己需求可自定义 b.--cfg参数,填入 models/detect/yolov9-c.yaml c.--data参数,填入data/banana_ripe.yaml,可自定义自己的yaml路径 d.--hyp参数,填入hyp.scratch-high.yaml e.--epochs参数,填入100或者200都行,根据自己的数据集可改 f.--batch-size参数,根据自己的电脑性能(显存大小)自定义修改 g.--device参数,一张显卡的话,就填0。没显卡,使用cpu训练,就填cpu h.--close-mosaic参数,填入15 以上修改好,直接pycharm中运行train_dual.py开始训练 方式二: 命令行方式,在pycharm中的终端窗口输入如下命令,可根据自己情况修改参数 官方示例:python train_dual.py --workers 8 --device 0 --batch 16 --data data/coco.yaml --img 640 --cfg models/detect/yolov9-c.yaml --weights '' --name yolov9-c --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15 训练完会在runs/train文件下生成对应的训练文件及模型,后续测试可以拿来用。 三、测试 1、训练完,测试 修改detect_dual.py中的参数 --weights,改成上面训练得到的best.pt对应的路径 --source,需要测试的数据图片存放的位置,代码中的test_imgs --conf-thres,置信度阈值,自定义修改 --iou-thres,iou阈值,自定义修改 其他默认即可 pycharm中运行detect_dual.py 在runs/detect文件夹下存放检测结果图片或者视频 【特别说明】 *项目内容完全原创,请勿对项目进行外传,或者进行违法等商业行为! 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值