1、相关系数:是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数 r 的公式:
例:向量x=[1 0 1]' y=[0 1 0]; 计算两向量的相关系数为:-0.5。
matlab中求取相关系数:corrcoef(x,y);可得到相关系数矩阵:
1.0000 -0.5000
-0.5000 1.0000
% 第一个1是a与a的相关系数,上边一个-0.5是a与b相关系数,下边一个-0.5是是b与a相关系数,第二个1是b与b的相关系数,
系数说明:
2、上面的例子是向量的相关系数。而对于矩阵相关矩阵,表现形式为相关系数组成的相关矩阵。
相关矩阵也叫相关系数矩阵,是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。
设(X1,X2,X3...Xn)是一个维随机变量,任意Xi与Xj的相关系数ρij(i,j=1,2,...n)存在,则以ρij为元素的n阶矩阵称为该维随机向量的相关矩阵.记作R,即
其中
相关矩阵的性质:相关矩阵的对角元素是1。相关矩阵是对称矩阵。
——相关系数根据变量的个数不同有不同的名字:
---简单相关系数:又叫相关系数或线性相关系数,一般用字母P 表示,用来度量两个变量间的线性关系。
---复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
---典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
3、相关系数的缺点:
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。