数据分析学习体验——特征变量相关系数和主成分分析

最新推荐文章于 2024-07-05 13:57:44 发布

置顶

SmallerNovice

最新推荐文章于 2024-07-05 13:57:44 发布

阅读量8.7k

点赞数

分类专栏：数据分析技术博客文章标签：数据分析 r语言主成分分析相关系数

本文链接：https://blog.csdn.net/SmallerNovice/article/details/79686463

版权

如何处理数据集中高度相关的特征变量

作者: 江俊
时间: “2018/03/25”

以下所有代码均使用R语言

数据集下载地址：https://download.csdn.net/download/smallernovice/10307411
问题描述
聚类分析以及回归分析中经常会遇到特征变量之间高度相关的问题，常规做法是计算变量之间的相关关系矩阵，从中发现相关性高于某个值（比如0.8）的两个变量，然后将其中一个删除（一般做法），问题是当面对数量很多的特征变量时，相关系数矩阵很大，在R语言中观察很容易遗漏并且相当麻烦，因此开始思考能不能建立一个函数自动完成这些变量的筛选以及删除操作，于是有了如下的代码，注释中包含了思考过程。

为什么会有这段代码：
关于回归分析和聚类分析中，挑选自变量相关性比较低的问题，每次都需要从关系矩阵中肉眼查看，感觉很累而且容易漏，所以自己写了个代码，虽然还是要自己进行挑选，不过已经少了很多工作量，下面是代码，最后是输出结果：
代码：

rm(list=ls())
setwd("G:\\第20期\\案例分析\\客户分群")
#读取数据
data<-read.csv("practice_sample.csv")
sum(is.na(data))
#包含缺失值的变量
var_na<-data[,colSums(is.na(data))>0]
#不包含缺失值的变量
var_na_no<-data[,colSums(is.na(data))==0]
#对含缺失值变量按缺失值的数量排序显示
sort(colSums(is.na(var_na)),decreasing = T)

输出结果：

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale
[1] 222723
 VW263  VW166  VW043  XB851  XB843  DS907  AU002  DS776 
122377  35201  21271  17389  17389   7278    976    842

自定义函数筛选相关系数高的特征变量

#代码演示，此处只使用不含缺失值的变量
x<-data.frame(scale(var_na_no))
#计算相关系数矩阵
c<-cor(x)
#自定函数：筛选出相关性高于0.5的变量(数值可选)
select_x<-function(c,m){                 # x:相关系数矩阵, m:相关系数
  #将相关性高于m的系数取1，即目标变量
  c<-ifelse(c>m,1,0)
  c<-as.data.frame(c)
  n<-nrow(c)
  #避免重复选取组合，将上三角矩阵全部设置成0(非目标变量)
  for(i in 1:n){
    for(j in 1:n){
      c[i,j]<-ifelse(i>j,c[i,j],0)
    }
  }
  #求出符合条件的索引
  index<-which(c==1)[!(which(c==1) %in% c((1:n)^2))]
  #列号
  index_c<-ifelse(index %% n==0,n,index %% n)
  #行号
  index_r<-(index-index_c) %/% n
  #名称
  c$name<-row.names(c)
  #第二个变量名
  name_index_c<-c$name[index_c]
  #第一个变量名
  name_index_r<-c$name[index_r]
  #输出结果
  cat("\n自变量中相关系数大于",m,"的所有组合如下所示：\n")
  for(i in 1:length(name_index_r)){
    cat("     ",i,":",name_index_r[i],"---",name_index_c[i],"\n")
  }
  #返回需要删除的变量名
  return(unique(name_index_c))
}
#需要删除的变量名
delete_varname<-select_x(c,0.8)
#显示需要删除的变量的名字
cat("需要删除的变量名是：\n")
delete_varname
#在原始数据中删除高度相关的变量
x_n<-x[,!(colnames(x) %in% delete_varname)]

输出结果：

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

自变量中相关系数大于 0.8 的所有组合如下所示：
      1 : AU004 --- R1_AU004 
      2 : AU009