对应分析(Correspondence Analysis,CA)是一种多维统计分析方法,主要用于分析名义尺度或序数尺度的分类数据。它是一种探索性数据分析技术,用于揭示分类变量之间的关系,以及它们如何相互关联。对应分析通常用于市场研究、社会科学、生物学等领域。
对应分析的基本思想是将列联表(一个包含两个或多个分类变量的表格)中的行和列转换为点,这些点在低维空间(通常是二维或三维)中表示,以便于可视化和解释。通过这种方式,对应分析可以揭示变量之间的内在结构和关系。
一、基本概念
- 列联表(Contingency Table):
列联表是一种数据表格,用于展示两个或多个分类变量的交叉频数。每一行代表一个行变量的类别,每一列代表一个列变量的类别,表格中的单元格包含对应类别组合的观测频数。 - 行变量(Row Variable):
在对应分析中,行变量是表格中的行所代表的分类变量,它的每个类别对应表格中的一行。 - 列变量(Column Variable):
列变量是表格中的列所代表的分类变量,它的每个类别对应表格中的一列。 - 概率矩阵(Probability Matrix):
概率矩阵是列联表经过标准化处理后得到的矩阵,其中每个元素代表对应类别组合的相对频率。 - 奇异值分解(Singular Val