特征筛选（变量聚类proc varclus）

最新推荐文章于 2024-06-20 16:57:49 发布

jin_tmac

最新推荐文章于 2024-06-20 16:57:49 发布

阅读量1w

点赞数 7

分类专栏： sas评分卡模型机器学习与数据挖掘文章标签：特征工程 sas 变量聚类数据挖掘

本文链接：https://blog.csdn.net/jin_tmac/article/details/87372468

版权

机器学习与数据挖掘同时被 2 个专栏收录

27 篇文章 1 订阅

订阅专栏

sas评分卡模型

9 篇文章 10 订阅

订阅专栏

在特征工程筛选变量的时候，我们可以用varclus进行变量的聚类分析来进行降维。

proc varclus

“The VARCLUS procedure divides a set of numeric variables into disjoint or hierarchical clusters. Associated with each cluster is a linear combination of the variables in the cluster.”

varclus过程首先是将所有的变量聚类成一簇，求相关矩阵的特征值，然后根据设置的参数来拆分聚类

“A cluster is chosen for splitting. Depending on the options specified, the selected cluster has either the smallest percentage of variation explained by its cluster component (using the PROPORTION= option) or the largest eigenvalue associated with the second principal component (using the MAXEIGEN= option)”

拆分的条件是已拆分好的簇能达到解释变异的最小百分比（如设置为PROPORTION=0.75,目前拆分3个簇只能解释70%，则继续拆分）;或者有满足第二特征根大于MAXEIGEN存在，通常设置为1或0.7。
在这里插入图片描述
上面拆分2簇，第1簇的第二大特征值为0.9379，第2簇的第二大特征值为0.456，两簇总解释的偏差为61.29%，可以选择继续拆分第1簇。

上图中1-R^2 = 下一个最靠近的R方/自己的聚类的R方，因此1-R方最小，则变量更能代表该簇。

上面是最终拆分的结果，然后挑选变量有以下2条原则：变量的业务解释和1-R^2
变量的业务解释包含很多方面，如：最近X个月的变量，有时会选择6个月，有时会偏好选择3个月；考虑客户不同维度变量：收入、负债、额度、账龄、额度使用率、分期、取现、逾期，最后每个维度都能有代表性变量。

在实际模型开发过程中，变量很多的时候，可以将上图R方统计分析输出（代码如下），并与iv值等筛选逻辑合并，然后统一筛选。

ods output 
RSquare=r2;
proc varclus data=&inDS maxeigen=&maxeigen
	outstat=&outstat
	outtree=&outtree
	hi  ;

	%inc var;
	
run;quit;
proc sql noprint;
	select max(_NCL_) into: max_cluster_num from &outstat;
quit;

data &outr2;
   set r2;
   where NumberOfClusters=&max_cluster_num;
run;

附：
1、https://bbs.pinggu.org/thread-3036735-1-1.html
3、http://blog.sina.com.cn/s/blog_5d3b177c0100equm.html
4、主成分分析与因子分析（1）
5、主成分分析与因子分析（2）

jin_tmac

关注

7
点赞
踩
34

收藏

觉得还不错? 一键收藏
4
评论
特征筛选（变量聚类proc varclus）

在模型筛选变量的时候，我们可以用varclus进行变量聚类分析来进行降维。提到降维我们会首先想到主成分分析，主成分实际上是正交主成分。而varclus是斜交主成分，其是在正交主成分的基础上再做了一些旋转。这样得到的主成分不仅能保留主成分的优点（主成分变量相关程度比较低）。另外一方面又能有很到的解释性，并且能达到对变量聚类的效果。综合说来就是，主成分分析是生成了新的主成分变量，用原始变量的线性关系...
复制链接

扫一扫

专栏目录