降维:
降维是指通过保留一些比较重要的特征,去除一些冗余的特征,减少数据特征的维度。
单细胞聚类的一般步骤有:数据质控,基因筛选,PCA降维,以及基于PCA预降维空间的聚类和进一步的降维可视化。
区别
1.PCA
PCA:线性降维
它通过寻找数据中的主成分来减少数据的维度。主成分是原始数据中方差最大的线性组合。
实际应用:生物信息学中探索单细胞RNA测序数据的主要变化,做数据降维。计算快
2.UMAP
UMAP:非线性降维技术,
它通过在高维空间中保持数据点之间的局部关系来进行降维。UMAP基于流形学习的思想,尝试在低维空间中保持数据点之间的局部距离。
实际应用:生物信息学中,单细胞RNA数据,做数据聚类。计算慢
3.t-SNE
t-SNE:非线性降维技术
它试图在低维空间中保持高维数据点之间的局部相似性关系。这使得它特别适用于探索高维数据中的非线性结构。
实际应用:生物信息学中,单细胞RNA数据,,于UMAP类似,做数据聚类。计算慢
与UMAP的区别:t-SNE具有一些关键的超参数,如学习率、迭代次数等,对结果具有较大影响。因此,在使用t-SNE时需要进行仔细的参数调整和结果评估。
算法:
1.PCA
2.UMAP
3.t-SNE
在单细胞研究中,细胞群体的二维展示图可以说是她的衣服,可视化效果的好坏直接影响整个研究的观感。tSNE的可视化效果受参数设置的影响,如困惑度(perplexity)等。所以有必要了解一下tSNE的原理,选择合适的参数,提高单细胞可视化的效果。
tSNE降维过程分成两大部分:
-
高纬度数据的欧式距离转成概率分布(高斯分布);
-
用t分布初始化tSNE的二维点,KL散度表示高斯分布和t分布的差异,进行梯度优化,使t分布逼近高斯分布,最终确定tSNE二维点。
欧氏距离转概率分布
我们以四个细胞x50个维度的数据为例。首先以细胞a为对象,用正态分布的公式转化细胞a与细胞b/c/d的距离,然后归一化,把距离变成概率。
补充
流形学习:
流形学习的经典方法有:Isomap,LLE,LE和diffusion maps等。流行学习中的“流形”,指的是一种局部可以近似为欧式空间的拓扑空间。通俗的讲,流形可以理解为高维空间中的低维映射结构,如下图中的瑞士卷,用三维表示是比较冗余的。非线性降维的方法可以用更低维度的坐标表示高维空间中的流形结构
欧式距离:
衡量的是多维空间中两个点之间的 绝对距离
n维欧氏空间是一个点集,它的每个点可以表示为(x(1), x(2), …, x(n)),其中x(i)(i=1,2…n)是实数称为x的第i个坐标,两个点x和y之间的距离d(x, y),定义为上面的公式。
高斯分布:
参考:
1.单细胞中的流形(一): 理解 tSNE中的perplexity (qq.com)
2.欧氏距离(Euclidean Distance) - 知乎 (zhihu.com)
3.正态分布(Normal distribution)又名高斯分布(Gaussian distribution) - mengfanrong - 博客园 (cnblogs.com)