对高维数据进行聚类(比如单细胞RNA测序数据)时常需要先降维,本文不讲原理直接给出一个使用PCA进行降维的例子:
var_thre = 0.6 方差比例阈值,这个值越大保留的特征数越多
#使用prcomp进行pca降维:
filtered_pca<- prcomp(filtered) #filtered是数据,其中行是样本列是特征
eigs<- (filtered_pca$sdev)^2 #计算出各个成分的方差
var_cum<- cumsum(eigs)/sum(eigs) #求各成分方差的累计比例
num_pc<- which.max(var_cum>= var_thre)
#这里要注意,which.max返回一个向量中最大值的下标,如果有多个相同的最大值则返回
#第一个最大值的下标,由于var_cum>=var_thre为布尔向量,即分量为0和1,因此
#这里返回第一个1的下标,即返回第一个达到方差比例阈值的成分的下标,亦即需要
#保留的特征数
mat_pcs<- filtered_pca$x[, 1:num_pc] #降维后的矩阵
#为画图方便也可mat_pcs<- filtered_pca$x[,1:2]只取前两个成分
fviz_nbclust(mat_pcs, kmeans, method = "wss") #碎石图,用于确定聚类个数
km<- kmeans(mat_pcs, 3) #使用kmeans方法聚成3类
data_cluster<- km$cluster #记录下每个数据被分到哪一类