用R语言画相关性矩阵,带P值和*号

感谢Rstata团队提供的帮助

开头先丢上老师的头像和他的公众号二维码,嘿嘿嘿嘿[doge]
在这里插入图片描述

在这里插入图片描述
不会调整排版,就先这样吧。
这阵子老师让我做数据分析,在做线性回归之前,要做所有变量的相关性,我看了网上的一些教程之后感觉不太满意,于是自己手动琢磨了一下,琢磨到一半心态爆炸,就去问老师。老师给了我代码,在一来一去若干次沟通之后,我大体理解了这段代码的意思,下面上代码,后面的注释是我自己加的,当然还有一些小地方看不懂,如果我注释有错误,欢迎大神们指出我的错误

Hmisc::rcorr(as.matrix(f), type = "pearson") -> corrlist
#注意,要先装Hmisc包,不然的话会报错,下同,因为太懒,所以就不写自动化的代码了,如果很多人找我写,那勉强也行,把需要计算相关系数的矩阵或者数据框放在as.martix()里面


# 相关系数矩阵
corrlist$r %>%  #提取r矩阵
  as_tibble() %>%  #设置为tibble格式
  mutate(v = colnames(.)) %>%  #将r矩阵的列名向量作为一个新的向量放到列里面
  select(v, everything()) %>%  #选中所有表格
  pivot_longer(2:37) -> corrdf #将数据从宽数据转化为长数据

# p 值矩阵
corrlist$P %>% 
  as_tibble() %>% 
  mutate(v = colnames(.)) %>% 
  select(v, everything()) %>% 
  pivot_longer(2:37) %>%  #2:37说明我有37个变量,你有多少个变量后面的37就换成多少,下同
  mutate(label = case_when(  #设置label,并加入判断,当P值符合特定条件就显示"\n"外加特定数量的*号
    is.na(value) ~ " ", #NA值赋值为空格
    value <= 0.001 ~ "\n***", #P<0.001就显示回车加三个星号
    between(value, 0.001, 0.01) ~ "\n**", #P为0.001-0.01 显示回车加两个*号
    between(value, 0.01, 0.05) ~ "\n*", #P为0.01-0.05 显示回车加一个星号
    T ~ ""
  )) -> pdf
corrdf %>% 
  left_join(pdf, by = c("v", "name")) %>% #将r值和p矩阵分别按照v和name字段进行合并
  rename(corr = value.x, p = value.y) %>% #将合并成的数据框中的value.x改名为corr,value.y 改名为p
  mutate(corr = round(corr, 2)) -> corrdf #将小数点改成两位

windowsFonts("Arial" = windowsFont("Arial")) #设置字体防止下面一段代码报错
corrdf %>% 
  mutate(v = forcats::fct_reorder(v, corr), #对v和name重新排序
         name = forcats::fct_reorder(name, corr)) %>% 
  ggplot(aes(x = v, y = name)) + 
  geom_tile(aes(fill = corr)) + #表头填充映射根据corr
  geom_text(aes(label = paste(corr, label, sep = "")),
            family = "Arial") + ggthemes::scale_fill_gradient2_tableau("Red-Blue Diverging")

出来的效果大约是这样
在这里插入图片描述
老师还给了我一个交互式的相关性矩阵代码,要是大家有需求可以留言,我可以再写一篇放到博客里,嘿嘿嘿嘿嘿。

再次感谢Rstata团队给予的技术支持,在这里放上公众号二维码,欢迎大家扫码关注。
在这里插入图片描述

  • 10
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
《数据仓库与数据挖掘》课程论文 基于Wine数据集的数据分析报告 专业:计算机科学与技术 二〇一五年五月二十五日 基于wine数据集的数据分析报告 摘 要:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的 过程。在大数据时代,如何从海量数据中挖掘有用信息成为了信息产业的热门话题。作 为数据挖掘课程内容的回顾与应用,本文对wine数据集进行了数据探索性分析,并将数 据挖掘的决策树、支持向量机、聚类等常用方法应用于具体的数据挖掘任务,并取得了 较好的效果。 关 键 词:wine数据集、决策树、支持向量机、聚类 引言 数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。数据挖掘一般是指从大量的数据中 自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处 理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。在大数据 时代,如何从海量数据中挖掘有用信息成为了信息产业的热门话题。本文作为数据挖掘 课程内容的回顾与应用,将数据挖掘的理论与方法运用于具体的数据挖掘任务中,并取 得较好的效果。 本次实验选择的数据集为wine数据集。本文首先对其进行了数据探索性分析,包括: 数据概括、变量分布、离群点、缺失相关性等,并运用了适当的图形进行描述,然 后在探索性分析的基础上,采用了决策树、支持向量机、聚类等方法进行了分类预测, 并比较了不同方法的分类效果。 数据探索性分析 1 数据概况 本次实验选用的数据集为UCI的Wine Quality数据集中white wine的4898条数据,每条数据有12种属性,分别为:fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates, alcohol, quality. 其中,quality为输出,以0到10之间的数字来表示酒的品质。 实验使用RStudio软件将数据集读入,并使用summary命令概括数据集概况。如图一所 示,summary概括了数据集中各个变量的平均、中位数、最大、最小等信息。 图1 数据概括 2 变量分布 使用hist()绘制各变量的直方图。如图二所示,直方图直观的展示了变量的分布情况 。 图2 变量直方图 直方图只能对变量进行直观的描述,而变量是否满足正态分布则需要正态性验证。使 用shapiro test对各变量进行正态验证,通过查看结果中的p- value就可以得到变量是否符合正态分布。如果p- value大于0.05即符合正态分布,而对所有变量进行shapiro test得到p- value均不大于0.05,所以wine数据集各特征均不是正态分布。 3 离群点分析 箱形图(Box- plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计 图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四 分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常。箱形图的异常就可以 可视化的展示数据集中的离群点。图3展示了各变量的离群点分布情况,可以看出离群点 较多,可能对预测产生影响。 图3 变量箱形图 4 缺失分析 Wine数据集不含有缺失。 5 相关性分析 数据集中各变量间的相关性关系可由cor()函数计算出的协方差矩阵来表示,如表4所 示。 表1 协方差矩阵表 "ROW "1 "2 " " "正确率 "MAE "正确率 "MAE " "决策树 "0.83 "0.2 "0.57 "0.51 " "支持向量 "0.61 "0.44 "0.57 "0.48 " "机 " " " " " 通过表二可以看出,两种模型的分类精度都比较低。再回顾数据探索性分析中关于离 群点部分的内容可知,数据集中含有大量离群点。而决策树与支持向量机属于对离群点 非常敏感的模型,这可能就是分类精度较低的原因。所以需要选用一种能够克服离群点 影响的模型来对wine数据集进行预测,因此我们选用了class包中的1- 近邻模型来进行分类预测,结果如表3所示,可以看出分类效果有提高。 表3 直接分类预测结果 "模型 "训练集 "测试集 " " "正确率 "MAE "正确率 "MAE " "决策树 "0.83 "0.2 "0.57 "0.51 " "支持向量 "0.61 "0.44 "0.57 "0.48 " "机 " " " " " "1-近邻 "  "  "0.61 "0.45

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值