问题描述:对于一个目标变量而言,当存在有多个自变量(协变量)时,如何确定其中的重要的变量,并且排序?
我的解题思路:1,对于目标变量而言,可以参考协变量与目标变量之间的相关性的强弱
2,依据于协变量在拟合目标函数时,对于目标变量的方差的解释力度,可以以拟合优度作为衡量标准
3,协变量的加入和删除在验证集中对于验证的效果好坏来决定
4,对于有监督学习而言,分类树的算法,会自动将协变量依据于其对于目标变量的重要性来进行排序,实际上,分类树即是依此来进行最优划分和分类
5,从非技术上来看,重要变量的选择和排序,需要很大程度基于对于问题本身和背景的考虑,其内在的逻辑性和关系,往往能够给出很清晰的变量重要性的划分和 排序。
这些是我的解题思路,但是感觉这样的做法缺乏新意,欢迎广大博友,留言讨论,指点迷津,对于重要变量的考虑,直接影响到模型建立的好坏,考虑这个问题,实际上是很有价值的。