连续变量怎样压缩?
连续变量压缩的基本思路为:建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩,后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类,但却并不是聚类分析,而是一种主成分分析的方法。
连续变量压缩的原则为:自变量间相关程度越低越好,这样会更加符合模型的假定,故需利用变量聚类的方法去降低变量间的相关性。
变量聚类是数据建模过程中标准的变量选择流程,只要做变量选择,都需要做变量聚类。不仅仅是回归模型需要变量聚类,聚类分析中同样也需要进行变量聚类。要清楚的是,变量聚类并不是回归模型的附属,它做的只是变量的选择。
为什么非要进行变量聚类?