R 计算变量之间的相关性

本文介绍相关性,以及如何在R中计算多个变量之间的相关性。

相关性

相关性是统计学中术语,它使用协方差法来衡量向量之间的相关性程度。
数学上公式为:
在这里插入图片描述

  • x 表示数据向量x
  • y 表示数据向量y
  • x 拔 表示x的均值
  • y 拔 表示y的均值

R 中使用cor函数计算相关性。语法如下:

cor(x, y, method)

x 和 y 表示数据向量,method 指定计算相关性的方法,默认为 pearson
皮尔逊相关系数是量化两个变量之间的相关性,即两个变量的线性关系,其值在-1到1之间:

  • -1 表示两个变量完全负相关
  • 0 表示两个变量没有相关性
  • 1 表示两个变量完全正相关

示例:

首先定义数据框,然后我们判断各个变量的相关性:


# library(pacman)
# p_load(devtools)
# p_load(DBI)
library(dplyr)


df <- tibble(a = c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),
             b = c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),
             c = c(13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),
             d = c(6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))

##  计算a , b 之间的相关性
cor(df$a, df$b)
# [1] 0.9279869

##  计算多个变量之间的相关性
# cor(df[,-1]) 
cor(df[,c(2,3,4)])

#            b          c          d
# b  1.0000000  0.8942139 -0.7917973
# c  0.8942139  1.0000000 -0.8063549
# d -0.7917973 -0.8063549  1.0000000

cor(df)

#            a          b          c          d
# a  1.0000000  0.9279869  0.9604329 -0.7915488
# b  0.9279869  1.0000000  0.8942139 -0.7917973
# c  0.9604329  0.8942139  1.0000000 -0.8063549
# d -0.7915488 -0.7917973 -0.8063549  1.0000000

## 仅数值列计算相关性
# cor(df[,unlist(lapply(df, is.numeric))])
cor(df[, sapply(df, is.numeric)])
#            a          b          c          d
# a  1.0000000  0.9279869  0.9604329 -0.7915488
# b  0.9279869  1.0000000  0.8942139 -0.7917973
# c  0.9604329  0.8942139  1.0000000 -0.8063549
# d -0.7915488 -0.7917973 -0.8063549  1.0000000

相关性可视化

下面的代码展示了如何创建成对变量的相关性可视化图,让你快速浏览每对变量之间的关系:

#load psych package
library(psych)

#create pairs plot
pairs.panels(df)

在这里插入图片描述

### 解决PyCharm无法加载Conda虚拟环境的方法 #### 配置设置 为了使 PyCharm 能够成功识别并使用 Conda 创建的虚拟环境,需确保 Anaconda 的路径已正确添加至系统的环境变量中[^1]。这一步骤至关重要,因为只有当 Python 解释器及其关联工具被加入 PATH 后,IDE 才能顺利找到它们。 对于 Windows 用户而言,在安装 Anaconda 时,默认情况下会询问是否将它添加到系统路径里;如果当时选择了否,则现在应该手动完成此操作。具体做法是在“高级系统设置”的“环境变量”选项内编辑 `Path` 变量,追加 Anaconda 安装目录下的 Scripts 文件夹位置。 另外,建议每次新建项目前都通过命令行先激活目标 conda env: ```bash conda activate myenvname ``` 接着再启动 IDE 进入工作区,这样有助于减少兼容性方面的问题发生概率。 #### 常见错误及修复方法 ##### 错误一:未发现任何解释器 症状表现为打开 PyCharm 新建工程向导页面找不到由 Conda 构建出来的 interpreter 列表项。此时应前往 Preferences/Settings -> Project:...->Python Interpreter 下方点击齿轮图标选择 Add...按钮来指定自定义的位置。按照提示浏览定位到对应版本 python.exe 的绝对地址即可解决问题。 ##### 错误二:权限不足导致 DLL 加载失败 有时即使指定了正确的解释器路径,仍可能遇到由于缺乏适当的操作系统级许可而引发的功能缺失现象。特别是涉及到调用某些特定类型的动态链接库 (Dynamic Link Library, .dll) 时尤为明显。因此拥有管理员身份执行相关动作显得尤为重要——无论是从终端还是图形界面触发创建新 venv 流程均如此处理能够有效规避此类隐患。 ##### 错误三:网络连接异常引起依赖下载超时 部分开发者反馈过因网速慢或者其他因素造成 pip install 操作中途断开进而影响整个项目的初始化进度条卡住的情况。对此可尝试调整镜像源加速获取速度或是离线模式预先准备好所需资源包后再继续后续步骤。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值