我敢肯定必须有一种更直截了当的方式 . 不过,我的代码完成了这项工作 .
假设,我们已将您的数据集加载到名为 df 的对象中(我不包含用于获取数据的代码,因为它不相关) .
首先,我将数据本身和用于测试功能重要性的 value 列分开是很方便的 . 名为 test.value 的新对象是第46列 .
test.value
df
现在我们准备开始了 .
框架 . 我们需要确定要从数据集中删除的行/列数 . 所以我们会:
逐列
确定大于0.8的所有相关的位置
在嵌套循环中逐个比较要素重要性
记录应在对象中删除的行/列号 remove
最后,删除选定的行/列
代码是:
remove
for(i in 1:ncol(df)){
coli
highcori .8 & coli!=1 # logical vector of cors > 0.8
# go further only if there are cors > 0.8
if(sum(highcori,na.rm = T)>0){
posi 0.8
# compare feature importance one by one
for(k in 1:length(posi)){
remi test.value[posi[k]],posi[k],i)
remove
}
}
}
remove
df.clean
而已 .
UPDATE
对于那些能够提供更好解决方案的人来说,这里有一个易于阅读的数据,cor.remove.RData
要么
如果你喜欢 dput
dput.df.txt
dput.test.value.txt
我有兴趣看到一个更好的方法来解决任务 .