用Python探究两组变量的相关性_典型相关分析(CCA)模板

典型相关分析(Canonical Correlation Analysis, CCA)是一种多变量统计分析方法,用于研究两组变量之间的整体相关性。它的基本原理是在两组变量中分别提取有代表性的两个综合变量(即两组变量的线性组合),通过这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

在进行典型相关分析时,首先需要准备两组相关的多变量数据,每组变量内部可以是相关的。接着,计算两组变量的线性组合,目的是使它们之间的相关性(典型相关系数)最大化。典型相关系数是衡量两组变量之间关系的指标,该值越大表示两组变量的相关性越强。在找到第一对典型变量之后,可以继续寻找第二对、第三对等,每一对典型变量都与前面的变量不相关,以此来提取两组变量间的全部信息 。

典型相关分析的应用领域相当广泛,包括生物医学、经济学、市场研究等。在生物医学中,它可以探索不同生物特征之间的关联,例如基因与表型之间的关系;在经济学中,可以分析不同经济指标之间的关联和影响;在市场研究中,可以研究消费者行为和市场趋势之间的关系 ,在金融市场数据分析中,可以使用CCA来探索经济指标与宏观经济变量之间的关系,从而为投资决策或宏观经济政策制定提供依据 。

此外,典型相关分析的显著性检验也是进行该分析时的一个重要环节,可以帮助研究者判断所发现的相关性是否具有统计学意义 。

为了展示典型相关分析的应用,我们可以创建一个假设性的案例。假设我们有一组关于学生学业表现的数据,包括他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)。我们的目标是探索这两组变量之间的相关性。

Step1:计算典型变量

导入必要的库

import numpy as np
import pandas as pd
from sklearn.cross_decomposition import CCA
  • numpy:用于数值计算,特别是大型多维数组。
  • pandas:提供数据结构和数据分析工具,特别是DataFrame对象。
  • sklearn.cross_decomposition.CCA:来自scikit-learn库,用于执行典型相关分析。

创建模拟数据

np.random.seed(0)
n_students = 100
academic_performance = np.random.normal(size=(n_students, 3))
study_habits = np.random.normal(size=(n_students, 3))
  • np.random.seed(0):设置随机数生成器的种子,以确保结果的可重复性。
  • n_students:定义学生的数量,这里设置为100。
  • academic_performance:创建一个形状为(100, 3)的数组,代表100名学生在数学、科学和历史的学业成绩,数据从标准正态分布中随机生成。
  • study_habits:创建一个形状为(100, 3)的数组,代表100名学生的学习习惯,包括每日学习时间、作业完成质量和课堂参与度,数据同样从标准正态分布中随机生成。

将数据转换为DataFrame

df = pd.DataFrame(np.hstack((academic_performance, study_habits)),
                  columns=['Math', 'Science', 'History', 'Study_Time', 'Homework_Quality', 'Class_Participation'])
  • np.hstack((academic_performance, study_habits)):将学业成绩和学习习惯两个数组水平(按列)堆叠在一起。
  • pd.DataFrame(...):创建一个DataFrame,将堆叠后的数组作为数据,并定义列名为学业成绩和学习习惯的各个方面。

堆叠后的数据如下:

执行典型相关分析

cca = CCA(n_components=3)
cca.fit(academic_performance, study_habits)
  • CCA(n_components=3):创建一个CCA对象,指定要提取的典型变量的数量为3。
  • cca.fit(academic_performance, study_habits):用学业成绩和学习习惯的数据来拟合CCA模型。

获取典型变量

canonical_vars = cca.transform(academic_performance, study_habits)
  • cca.transform(academic_performance, study_habits):使用拟合好的CCA模型转换原始数据,得到对应的典型变量。

将典型变量添加到DataFrame中

df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'] = canonical_vars[0][:, 0], canonical_vars[1][:, 0]
df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'] = canonical_vars[0][:, 1], canonical_vars[1][:, 1]
df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'] = canonical_vars[0][:, 2], canonical_vars[1][:, 2]
  • 这段代码将得到的典型变量添加到原始DataFrame中。每一对典型变量(一个来自学业成绩,一个来自学习习惯)都与同一个典型相关系数相关联,这里分别添加了三个典型变量对。

显示DataFrame的前5行

df.head(5)

结果如下:

在这个案例中,我们通过Python生成了模拟数据,代表学生的学业成绩和学习习惯。然后,我们使用典型相关分析(CCA)来探索这两组变量之间的关系。结果显示,我们得到了三对典型变量。

Step2:计算典型变量间的相关系数以及假设检验

# 计算典型变量间的相关系数
correlations = df[['Canonical_Var_1_Academic', 'Canonical_Var_2_Academic', 'Canonical_Var_3_Academic',
                   'Canonical_Var_1_Habits', 'Canonical_Var_2_Habits', 'Canonical_Var_3_Habits']].corr()

# 进行假设检验(相关系数的显著性检验)
p_values = correlations.copy()
for i in correlations.columns:
    for j in correlations.columns:
        if i != j:
            p_values[i][j] = stats.pearsonr(df[i], df[j])[1]
        else:
            p_values[i][j] = 1

correlations, p_values

结果分析:

  • 第一组典型变量(学业成绩 vs 学习习惯)的相关系数为 0.1829,p值为 0.0686,表明它们之间有轻微的正相关性,但这种相关性可能不具有统计学意义。
  • 第二组典型变量的相关系数为 0.0000(几乎为零),p值为 0.9998,表明它们之间几乎没有相关性。
  • 第三组典型变量的相关系数为 -0.0460,p值为 0.6535,表明它们之间有轻微的负相关性,但这种相关性可能不具有统计学意义。

所以得出结论,他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)的相关性不大。

Step3:结果可视化

为了可视化这些典型变量之间的关系,我们可以使用散点图。散点图是一种直观展示两个变量之间关系的图表,通过观察点的分布,我们可以判断变量之间的相关性。在这个案例中,我们将为每组典型变量创建一个散点图,展示学业成绩和学习习惯之间的关系。

import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 创建散点图
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# 第一组典型变量
axes[0].scatter(df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'])
axes[0].set_title('第一组典型变量')
axes[0].set_xlabel('学业成绩')
axes[0].set_ylabel('学习习惯')

# 第二组典型变量
axes[1].scatter(df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'])
axes[1].set_title('第二组典型变量')
axes[1].set_xlabel('学业成绩')
axes[1].set_ylabel('学习习惯')

# 第三组典型变量
axes[2].scatter(df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'])
axes[2].set_title('第三组典型变量')
axes[2].set_xlabel('学业成绩')
axes[2].set_ylabel('学习习惯')

# 调整布局
plt.tight_layout()

# 显示图表
plt.show()

散点图如下:

我们为每组典型变量创建了一个散点图,展示了学业成绩和学习习惯之间的关系:

  1. 第一组典型变量:从图中可以看出,这组变量之间存在轻微的正相关性,但相关性不强。

  2. 第二组典型变量:这组变量之间几乎没有可见的相关性。

  3. 第三组典型变量:这组变量之间有轻微的负相关性,但同样不强。

以上介绍了典型相关分析的步骤:计算典型变量,计算典型变量间的相关系数以及假设检验,结果可视化。

点下关注,分享更多有关AI,数据分析和量化金融相关的实用教程和案例解析。

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python进行典型相关性分析,可以使用sklearn库中的cross_decomposition模块提供的CCA方法。以下是一个示例代码,使用企鹅数据进行CCA分析: ``` import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np from sklearn.cross_decomposition import CCA filename = "penguins.csv" df = pd.read_csv(filename) df = df.dropna() X = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']] Y = df[['species']] cca = CCA(n_components=2) cca.fit(X, Y) X_c, Y_c = cca.transform(X, Y) plt.scatter(X_c[:, 0], Y_c[:, 0]) plt.xlabel('Canonical Variable 1') plt.ylabel('Canonical Variable 2') plt.show() ``` 在这个例子中,我们首先使用pandas库读取并清理企鹅数据集。然后,我们选择了X和Y变量,其中X包含了企鹅的几个数值特征,Y包含了企鹅的物种信息。然后,我们使用CCA模型进行训练,并将X和Y转换为CCA的标准化变量。最后,我们在散点图上绘制了经过CCA转换后的变量。这可以帮助我们可视化两个变量集之间的典型相关性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [使用Python进行典型相关性分析(Canonical Correlation Analysis)](https://blog.csdn.net/CodeWG/article/details/131075814)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [典型相关分析介绍及python实现](https://blog.csdn.net/Python_xiaowu/article/details/122258245)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值