协方差矩阵的概念:
描述随机变量之间的相互关系。即一个变量的变化如何影响另一个变量。
当数据集变量间不相关,协方差矩阵是对角矩阵,协方差为0,也是正定矩阵,存在逆矩阵。
当数据集变量间线形相关,协方差矩阵是奇异的,矩阵的逆矩阵则不存在,导致问题。
总结(粗暴的理解):协方差矩阵奇异性=变量间线形相关
协方差逆矩阵奇异性引起的问题:
基于协方差矩阵的统计方法可能不可靠,例如:
PCA不可用
LDA不可用
协方差逆矩阵奇异性的解决办法:
正则化:
lasso regression;
ridge regression:
变体:
稀疏主成分分析(sparse PCA);
方差最大化线性判别分析(maximum variance LDA)
在MASS包LDA函数中,
tol
是协方差矩阵中奇异性的容差水平,tol = 1.0e-4是举例的容忍度。