数学建模——变量类型及相关性分析

四种基本变量 

定类变量根据定性的原则区分总体各个案类别的变量

案例:性别,民族、婚姻状况

定序变量区别同一类别个案中等级次序的变量

案例:文化程度、工厂规模、年龄大小

定距变量区别同一类别个案中等级次序及其距离的变量

案例:摄氏温度、比率、智力水平

定比变量也是区别同一类别个案中等级次序及其距离的变量

案例:收入、价格、市场占有率 

Pearson相关性系数

适用于定距定比类型的变量。 是运用最广的一种相关程度统计量。检验用t统计量,统计量t服从自由度(n-2)的分布。

 

适用条件

1、两变量均应由测量得到的连续变量

2、两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布

3、变量必须是成对的数据。

4、两变量间为线性关系。 

相关系数的性质

|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。

例题 

假设你有以下两组数据,分别代表两个变量X和Y:

  • X: [1, 2, 3, 4, 5]
  • Y: [2, 4, 5, 4, 5]
# 导入numpy库用于计算
import numpy as np

# 定义X和Y的数据
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 5, 4, 5])

# 计算X和Y的平均值
mean_X = np.mean(X)
mean_Y = np.mean(Y)

# 计算Pearson相关系数的分子部分
numerator = np.sum((X - mean_X) * (Y - mean_Y))

# 计算Pearson相关系数的分母部分
denominator = np.sqrt(np.sum((X - mean_X)**2) * np.sum((Y - mean_Y)**2))

# 计算Pearson相关系数
r = numerator / denominator

print(f"Pearson相关系数: {r}")

运行代码得到结果为:0.7745966692414834 

 接下来我们将使用t统计量来检验X和Y之间的Pearson相关系数是否显著。

# 计算样本数量
n = len(X)

# 计算t统计量
t_statistic = r * np.sqrt((n - 2) / (1 - r**2))

# 输出t统计量
print(f"t统计量: {t_statistic}")

 运行代码得到结果为:2.121320343559643

为了确定这个t统计量是否显著,我们需要将其与某个显著性水平(例如0.05)下的t分布临界值进行比较。如果t统计量的绝对值大于临界值,则我们可以认为相关性是显著的。

由于样本量为5,自由度为 n−2=3。在0.05的显著性水平下,自由度为3的t分布的临界值大约为3.182(双尾检验)。

由于我们的t统计量2.121小于3.182,因此我们不能在0.05的显著性水平下拒绝零假设,即我们不能断定X和Y之间的相关性是显著的。

 Spearman等级相关系数

适用条件

适用于度量定序变量与定序 变量之间的相关。

例题 

假设你有以下两组数据,分别代表两个变量X和Y:

  • X: [1, 2, 3, 4, 5]
  • Y: [2, 4, 5, 4, 5]

请计算X和Y之间的Spearman等级相关系数。

import numpy as np
import scipy.stats as stats

# 定义X和Y的数据
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 5, 4, 5])

# 使用scipy.stats中的spearmanr函数计算Spearman等级相关系数
rho, p_value = stats.spearmanr(X, Y)

print(f"Spearman等级相关系数: {rho}")
print(f"p值: {p_value}")

在这个代码中,spearmanr 函数返回两个值:Spearman等级相关系数rho和p值(p_value。p值用于检验相关性的显著性。

运行代码结果为:(0.7378647873726218, 0.15461852312844906)

X和Y之间的Spearman等级相关系数为0.738。这表明它们之间存在中等程度的正相关关系。

同时,p值为0.155。在通常的显著性水平(例如0.05)下,这个p值大于0.05,因此我们不能拒绝零假设,即我们不能断定X和Y之间的相关性在统计上是显著的。这意味着虽然我们观察到了一定程度的相关性,但这种相关性可能是由于随机因素造成的。

 偏相关性分析

概念原理

在多变量的情况下,变量之间的相关关系是很复杂的。 如:农作物产量与降水量之间的关系中实际还包含温度对 产量的影响。 商品的需求与价格关系,注意收入水平的影响等等。

偏相关分析是指在对其他变量的影响进行控制的条件下, 分析多个变量中某两个变量之间线性相关程度,计算偏相关系数。

在计算偏相关系数时:需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方 法控制其他变量,专门考察两个特定变量的净相关关系。

假定有x1,x2,x3这3个变量,要求计算剔除变量x3的影响后 变量x1,x2之间的偏相关系数,记为 r12,3其中x3为可控变量。

 偏相关系数r12,3的显著性检验公式为:

例题 

import pingouin as pg

# 准备数据
data = {
    '日期': ['8.19', '8.24', '9.02', '9.04', '9.14', '9.15', '9.17', '9.20', '10.09'],
    '土壤侵蚀量': [429.2, 3663.8, 96.6, 289.0, 537.9, 704.0, 472.4, 1020.1, 7074.2],
    '降雨量': [16.5, 101.4, 13.4, 32.0, 40.7, 73.5, 56.8, 32.0, 341.5],
    '降雨强度': [32.6, 60.0, 25.6, 9.6, 15.0, 19.4, 30.9, 18.0, 39.2]
}

# 创建DataFrame
df = pg.DataFrame(data)

# 计算偏相关系数
# 控制变量为降雨量,我们将计算土壤侵蚀量与降雨强度之间的偏相关系数
partial_corr = pg.partial_corr(data=df, x='土壤侵蚀量', y='降雨强度', covar='降雨量')

# 打印结果
print(partial_corr)

 运行结果为:

在扣除降雨量影响的情况下,土壤侵蚀量与降雨强度之间的偏相关系数为0.754。这表明在控制了降雨量的影响后,土壤侵蚀量与降雨强度之间存在中等程度的正相关关系。这意味着降雨强度越高,土壤侵蚀量也倾向于增加,即使我们考虑了降雨量的影响。

  • 29
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值