[统计学笔记] 统计学中的相关关系和三大相关系数

这篇博客详细介绍了统计学中的相关关系及其三大相关系数——Pearson、Spearman和Kendall秩相关系数。通过相关系数可以度量两个变量间的线性关系强度,相关分析适用于线性和非线性关系的判断。Pearson适用于正态分布的连续变量,Spearman和Kendall则较为灵活,可用于顺序变量或非正态分布数据。相关系数的计算和适用条件是决定选择哪种方法的关键因素。
摘要由CSDN通过智能技术生成

统计学中的相关关系和三大相关系数

相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。

由于研究对象的不同,相关系数有如下几种定义方式。

简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。

复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:

变量之间是否存在关系?
如果存在关系,他们之间是什么样的关系?
变量之间的关系强度如何?
样本所反映的变量之间的关系能否代表总体变量之间的关系?
为了解决这些问题,在进行相关分析时,对总体主要有两个假定:

第一:两个变量是线性相关的;

第二:两个变量都是随机变量;

确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。
1)相关表
编制相关表前首先要通过实际调查取得一系列成对的标志值资料作为相关分析的原始数据。
相关表的分类:简单相关表和分组相关表。单变量分组相关表:自变量分组并计算次数,而对应的因变量不分组,只计算其平均值;该表特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。双变量分组相关表:自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。
2)相关图
利用直角坐标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形。相关图被形象地称为相关散点图。因素标志分了组,结果标志表现为组平均数,所绘制的相关图就是一条折线,这种折线又叫相关曲线。
3)相关系数
1、相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
2、确定相关关系的数学表达式。
3、确定因变量估计值误差的程度。

在进行相关分析时,首先需要绘制散点图来判断变量之间的关系形态,如果是线性关系,则可以利用相关系数来测度两个变量之间的关系强度,然后对相关系数进行显著性检验,以判断样本所反映的关系是否代表两个变量总体上的关系。

根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
 

通过散点图可以判断两个变量之间有无相关关系,并对变量之间的关系形态作出大致的描述,但散点图不能准确反映变量之间的关系强度。因此,为准确度量两个变量之间的关系强度,需要计算相关系数。

相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

若相关系数是根据总体全部数据计算的,称为总体相关系数,记为:\rho

若是根据样本数据计算的,则称为样本相关系数,记为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值