降维算法 | PCA | UMAP | t-SNE

降维:

降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。

单细胞聚类的一般步骤有:数据质控,基因筛选,PCA降维,以及基于PCA预降维空间的聚类和进一步的降维可视化。

区别

1.PCA

PCA:线性降维

它通过寻找数据中的主成分来减少数据的维度。主成分是原始数据中方差最大的线性组合。

实际应用:生物信息学中探索单细胞RNA测序数据的主要变化,做数据降维。计算快

2.UMAP

UMAP:非线性降维技术,

它通过在高维空间中保持数据点之间的局部关系来进行降维。UMAP基于流形学习的思想,尝试在低维空间中保持数据点之间的局部距离。

实际应用:生物信息学中,单细胞RNA数据,做数据聚类计算慢

3.t-SNE

t-SNE:非线性降维技术

它试图在低维空间中保持高维数据点之间的局部相似性关系。这使得它特别适用于探索高维数据中的非线性结构。

实际应用:生物信息学中,单细胞RNA数据,,于UMAP类似,做数据聚类计算慢

与UMAP的区别:t-SNE具有一些关键的超参数,如学习率、迭代次数等,对结果具有较大影响。因此,在使用t-SNE时需要进行仔细的参数调整和结果评估。

算法:

1.PCA

2.UMAP

3.t-SNE

      在单细胞研究中,细胞群体的二维展示图可以说是她的衣服,可视化效果的好坏直接影响整个研究的观感。tSNE的可视化效果受参数设置的影响,如困惑度(perplexity)等。所以有必要了解一下tSNE的原理,选择合适的参数,提高单细胞可视化的效果。

tSNE降维过程分成两大部分:

  1. 高纬度数据的欧式距离转成概率分布(高斯分布);

  2. 用t分布初始化tSNE的二维点,KL散度表示高斯分布和t分布的差异,进行梯度优化,使t分布逼近高斯分布,最终确定tSNE二维点。

    欧氏距离转概率分布

            我们以四个细胞x50个维度的数据为例。首先以细胞a为对象,用正态分布的公式转化细胞a与细胞b/c/d的距离,然后归一化,把距离变成概率。

  3. 后续看原链接单细胞中的流形(一): 理解 tSNE中的perplexity (qq.com)

补充

流形学习:

流形学习的经典方法有:Isomap,LLE,LE和diffusion maps等。流行学习中的“流形”,指的是一种局部可以近似为欧式空间的拓扑空间。通俗的讲,流形可以理解为高维空间中的低维映射结构,如下图中的瑞士卷,用三维表示是比较冗余的。非线性降维的方法可以用更低维度的坐标表示高维空间中的流形结构

欧式距离:

衡量的是多维空间中两个点之间的 绝对距离

      n维欧氏空间是一个点集,它的每个点可以表示为(x(1), x(2), …, x(n)),其中x(i)(i=1,2…n)是实数称为x的第i个坐标,两个点x和y之间的距离d(x, y),定义为上面的公式。

高斯分布:

参考:

1.​​​​​​单细胞中的流形(一): 理解 tSNE中的perplexity (qq.com)

2.欧氏距离(Euclidean Distance) - 知乎 (zhihu.com)

3.正态分布(Normal distribution)又名高斯分布(Gaussian distribution) - mengfanrong - 博客园 (cnblogs.com)

4.单细胞中的流形(二):UMAP与tSNE的区别

  • 23
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值