典型相关分析介绍及python实现

最新推荐文章于 2023-09-21 10:15:07 发布

Python_xiaowu

最新推荐文章于 2023-09-21 10:15:07 发布

阅读量4k

点赞数 6

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/Python_xiaowu/article/details/122258245

版权

本文介绍了典型相关性分析（CCA）在处理不同类型高维数据时的应用，对比了CCA与PCA的区别，并通过Python的sklearn库展示了如何进行CCA分析。在企鹅数据集的案例中，分析了两组数据的相关性，揭示了隐藏的性别信息。

摘要由CSDN通过智能技术生成

在处理单个高维数据时,通过可以通过LDA,PCA,等等方法进行降维处理,但是如果某两个数据来自同一个样本,但是数据类型不同,差距巨大时,怎么办呢?这个时候就是典型相关性分析(Canonical Correlation Analysis,CCA)的应用场景.CCA允许我们同时从两套数据分析.典型的应用场景就包括生物学上的联合分析,同一组样本,同时检测转录组和蛋白组,转录组和代谢组以及微生物代谢组等等,更详细的内容可参考维基百科 .

CCA与PCA的联系与差别

CCA有点类似PCA(主成分分析,principal component analysis),它们都由同一个课题组提出,在降维方面(canonical variables)可以认为是多套数据的PCA.

不同之处是PCA旨在找出一套数据中能够表示最多方差的线性组合,而CCA旨在找出两套数据中能够最大程度表示其相关性的线性组合.

python实现CCA分析

那么在python中如何实现CCA分析呢? 在sklearn包中的cross_decomposition提供了CCA分析方法,直接调用即可,这里以企鹅数据为例

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
filename = "penguins.csv"
df = pd.read_csv(filename)
df =df.dropna()
df.head()

展示数据

species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	MALE
1	Adelie	Torgerse

最低0.47元/天解锁文章

Python_xiaowu

关注

6
点赞
踩
43

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫