python 变量聚类 proc varclus_sas 变量降维、变量聚类、变量去除共线性

最新推荐文章于 2023-02-16 09:18:32 发布

weixin_39837727

最新推荐文章于 2023-02-16 09:18:32 发布

阅读量677

点赞数 1

文章标签： python 变量聚类 proc varclus

今天的文章的使用场景是，是因为我很热衷处理那种别人不喜欢整理的各种流水数据，例如运营商通话流水啊，银行卡流水啊，信用卡流水等等，那么这些数据做衍生变量有个经常会碰到的问题，就是像这种“最近一天的通话次数”有可能跟“最近三天的通话次数”这种相关性很强，但是在拟合的之后，这种相关性强的只能进一个，不然共线性就来找你啦，所以这时候你要处理是：1、你要让那个变量进去。2、那些变量是一类的，他们共线性在一起很强。

你跟我说，这谁不会啊，这不就是vif嘛，一看我就知道那几个相关性高了，是的，我们经常会有vif,但是模型做多了，你会发现，vif无论要多方便，但是有时候vif过了，但是还是存在共线性，所以你这时候还是要去看相关矩阵。所以vif并不会万能，我今天也不是要说相关矩阵，我今天要说的是sas的一个过程步叫做“proc varclus”，看着是不是很像聚类的那个过程步，是这个这个是变量的聚类，将相关性强的变量聚在一起，这里我不展开细讲，我给你链接，你自己去看，我今天不是来介绍这个过程的，我是来给代码~~

链接在这里：http://blog.sina.com.cn/s/blog_5d3b177c0100equm.html

https://wenku.baidu.com/view/7c4929f34693daef5ef73de1.html。

这是思路

代码主要实现其实就是对变量降维，而且是降维后，给你提取同类变量中那个最好的。代码的思路是这样子的：

1、输入一批数值变量，现在的代码只能实现数值变量的。我建议两百以内，你想要一千，我绝不拦你。

2、使用proc varclus过程将变量聚类，控制群的数目

Minclusters(minc)=正整数：指定最少要有几个群。

Maxclusters(maxc)=正整数：指定最多有几个群。

Proportion(percent)=正有理数：群主成份所能解释的变异数百分比。注意，这里proportion=0.75与percent=75是一样的。

Maxeigen=实数：规定每个群内第二特征值的最大可能值。

请自行选择，本人最常使用第二特征根。

3、每一簇的变量都去跑一遍iv，再结合变量聚类结果指标和业务进行变量筛选。

挑选变量的原则如下࿱

最低0.47元/天解锁文章

weixin_39837727

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 变量聚类 proc varclus_sas 变量降维、变量聚类、变量去除共线性

今天的文章的使用场景是，是因为我很热衷处理那种别人不喜欢整理的各种流水数据，例如运营商通话流水啊，银行卡流水啊，信用卡流水等等，那么这些数据做衍生变量有个经常会碰到的问题，就是像这种“最近一天的通话次数”有可能跟“最近三天的通话次数”这种相关性很强，但是在拟合的之后，这种相关性强的只能进一个，不然共线性就来找你啦，所以这时候你要处理是：1、你要让那个变量进去。2、那些变量是一类的，他们共线性在一起...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。