SVD
奇异值分解是这三种技术的根本。令为实数值表。SVD是。我们可以只使用第一潜在向量和根来获得作为的最佳 -rank近似值:。此外,我们将标出,,。XX- [R×Çr×cX=Ur×r小号- [R×ÇV′Ç×ÇX=Ur×rSr×cVc×c′米m [米≤分钟([R,C ^)][m≤min(r,c)]X(米)X(m)米mXXX(米)=Ur×mSm×mV′c×mX(m)=Ur×mSm×mVc×m′U=Ur×mU=Ur×mV=Vc×mV=Vc×mS=Sm×mS=Sm×m
奇异值及其平方即特征值代表数据的比例尺,也称为惯性。左特征向量是数据在主轴上的行的坐标;右特征向量是数据在相同潜轴上的列的坐标。整个标度(惯性)存储在,因此坐标和是单位归一化的(列SS = 1)。SSUmVSUVUUmmVVSSUUVV
SVD主成分分析
在PCA,它会被同意考虑行的为随机观察(可以来或去),但要考虑列的作为固定的维数或变量。因此,通过svd分解而不是。注意,这对应于特征分解,是样本大小。(通常,大多数情况下具有协方差-为了使它们无偏,我们更喜欢除以,但这是一个细微差别。)XXXZ=X/√XXZ=X/r√Z=X/rXXX′X/rX′X/rrr[R-1nr−1r−1
与常数的乘积仅影响;和仍然是行和列的单位归一化坐标。XXSSUUVV
从这里到下面,我们按照的svd而不是 svd来重新定义,和;是的规范化版本,并且规范化在分析类型之间有所不同。SSUUVVZZXXZZXX
通过乘以我们将列中的均方数设为1。考虑到行是随机情况,这是合乎逻辑的。因此,我们获得了PCA 标准或标准化观测主成分分数。对于我们不会做相同的事情,因为变量是固定的实体。ü[R√=U∗Ur=U∗UU*VüUü∗U∗VV
然后,我们可以与所有的惯性赋予行,以获得非标准化的行坐标,也称为PCA 原始主成分得分观察:。我们将这个公式称为“直接方式”。返回相同的结果;我们将其标记为“间接方式”。ü∗小号U∗SXVXV
类似地,我们可以赋予列所有惯性,以获得非标准化的列坐标,在PCA中也称为分量可变载荷: [如果为正方形,则可以忽略转置],即“直接方式”。相同的结果由返回,即“间接方式”。(上面的标准化主成分分数也可以根据加载量计算为,其中为加载量。)V小号′VS′小号Sž′üZ′UX(甲小号-1/2)甲X(一个小号-1/2)X(AS−1/2)一种A
双线图
从降维分析本身的角度考虑双图,而不是简单地将其视为“双重散布图”。该分析与PCA非常相似。与PCA不同,行和列都被对称地视为随机观察结果,这意味着被视为维度变化的随机双向表。然后,自然地,通过正常化它既和:SVD之前。XXrcZ=X/√ [RrCcZ=X/rc−−√ž=X/[RC
svd之后,像在PCA中一样计算标准行坐标:。对列向量执行相同的操作(与PCA不同),以获得标准的列坐标:。行和列的标准坐标均值为 1。U∗=Ur√ü∗=ü[RV*=V√V∗=Vc√V∗=VC
像在PCA中一样,我们可以赋予行和/或列坐标以特征值的惯性。非标准化的行坐标:(直接方式)。非标准化列坐标:(直接方式)。间接方式是什么?您可以轻松地通过替换得出非标准化行坐标的间接公式为,非标准化列坐标的间接公式为。U∗Sü∗小号V*小号'XV*/çX'ü*/řV∗S′V∗小号′XV∗/cXV∗/CX′U∗/rX′ü∗/[R
PCA作为Biplot的特例。从上面的描述中,您可能了解到PCA和bip