在上一篇博文《主成分分析》中,遗留了一个问题,即“降维后得到的主成分分量含义(或者说其代表什么意思)是什么?”,我在一本书上看到过一个例子,这里就用该例子对遗留问题做些说明。
”
Huba et al.(1981).收集了1684位洛杉矶学生消费13种合法和不合法兴奋性物质的数据,这些物质有:香烟、啤酒、红酒、酒精、可卡因、镇定剂、用于达到高潮的药房药剂、吗啡和其它鸦片制剂、大麻、麻药、吸入性麻醉剂、迷幻药和安非他明。
Huba等人把使用药的情况定为:1(从未尝试),2(用过一次),3(用过几次),4(用过好多次),5(经常使用)。按照这些变量的顺序,得到的第一主成分为a,第二主成分为b。将a和b分别表示成原先13中变量(即13中兴奋性物质)的线性组合(没错,这里实际上就是用一组新的基去表示原样本数据矩阵,而我们可以用原变量去表示这一组新的基),得到a的权为(0.278,0.286,0.265,0.318,0.208,0.293,0.176,0.202,0.339,0.329,0.276,0.248,0.329),b的权为(0.280,0.396,0.392,0.325,-0.288,-0.259,-0.189,-0.315,0.163,-0.050,-0.169,-0.329,-0.232).可以看到,成分a给每个变量的权值大致相等,因此我们可以认为a表示的含义是:衡量学生使用这些兴奋性物质的频繁程度,而对于成分b,它对于合法兴奋性物质的权值为正,而对于非法兴奋性物质的权值为负,因此可以认为b表示的含义为:当我们控制总体兴奋性物质的使用量,判断学生使用的兴奋性物质是合法还是非法的。 ”
不管是主成分分析(PCA)还是多维缩放(MDS),目的都是为了将高维数据更好的在低维空间(二维或三维)中可视化,但是二者的适用情况还是有所区别。以二维为例,主成分分析只适用于被测量变量所跨越区域的二维线性子空间内的数据,举个例子,在下图中(该图引用于https://blog.csdn.net/lyl771857509/article/details/79435402),尽管在原始的空间中,数据呈三维分布,但是实际上绝大部分数据点实际上分布于一个平面(二维空间)内,也即是对于具有这样特征的测量数据适合用主成分分析,提取两个主成分。
而多维缩放方法,其出发点就是尽量在二维空间中保持原数据空间中各样点间距离不变,这个是多维缩放方法的核心。这里先说一下“距离”一词的定义,我们常用的距离为欧里几德距离(欧式距离),对于n维向量a