相关性分析
相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关分析。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为“散点图”。根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
相关关系的种类
按变量的个数分类:
- 研究2个变量之间的关系,为单相关;
- 研究1个变量与N个变量之间的关系,为复相关;
- 就多个变量测定其中两个变量的相关程度而假定其他变量不变,为偏相关。
数据类型
- 连续变量
- 二分类变量(只有两个类别的无序分类变量)
- 有序分类变量(若变量类别之间定距,则可以进行赋值操作,将其看为连续变量;但通常情况下还是对类别进行分析)
- 无序分类变量
相关性度量
计算相关系数
对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 。若是根据样本数据计算的,则称为样本相关系数, 记为 r。
线性相关
一变量数值发生变动,另一变量数值会随之发生大致均等的变动,各点的分布在平面图上大概表现为一直线。线性相关分析,就是用线性相关系数来衡量两变量的相关关系和密切程度。
给定二元总体 (X,Y),总体相关系数用 ρ 来表示:
- 为 X 的总体方差
- 是 Y 的总体方差
- 是 x 与 y 的协方差。
对于协方差:
- 当 cov(X,Y)>0 , X 的偏差 [X−E(X)] 跟Y 的偏差 [Y−E(Y)] ,有同时增加或同时减少的倾向,又由于 E(X) 和 E(Y) 都是常数,所以就能够等价于 X 与 Y 有同时增加或者减少的倾向,称 X 与 Y正相关
- 当 cov(X,Y)<0 , X 的偏差 [X−E(X)] 跟 Y 的偏差 [Y−E(Y)] ,有X 增加 Y 减少的倾向,或Y增加 X 减少的倾向,称 X 与 Y负相关
- 当 cov(X,Y)=0 ,称 X 与 Y不相关,这时可能是“ X 与 Y 取值毫无关联”,也可能是“有某种特殊的非线性关系”
根据柯西-施瓦尔兹不等式:
变形得 在区间 [−1,1]
- 两变量线性相关性越密切, || 接近于 1
- 两变量线性相关性越低&#x