1.特征重要性定义
搜集查阅了许多资料之后,暂未找到对于特征重要性的高大上的定义。就按照字面意思理解,特征重要性即特征的重要性,是机器学习中的一个概念,其中特征是被观测对象的一个独立可观测的属性或者特点。而之前看的某篇文章中提到,并不是被观测对象的所有“属性”一定都是“特征”,这说明判断某个属性是否为特征,也是与机器学习任务有关的,与任务无关的属性不应作为特征。
2.特征重要性的意义
【参考:怎么理解随机森里中feature importance-特征重要性?-CDA数据分析师官网】
(1)特征重要性可以衡量每个输入特征对模型预测结果的贡献,可以凸显出特征与目标的相关相关程度,能够帮助我们了解数据集
(2)特征重要性可以帮助了解模型
特征重要性得分通常是通过数据集拟合出的预测模型计算的。查看重要性得分能够洞悉此特定模型,以及知道在进行预测时特征的重要程度。
(3)特征重要性能够用于改进预测模型
我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征)。这其实是一种特征选择,能够简化正在建模的问题,加快建模过程,在某些情况下,还能够改善模型的性能。
3.特征重要性的常用计算方法
最近以“特征重要性”为检索词在知网搜索,发现主流的计算特征重要性的方法是随机森林(RF)。特征重要性是随机森林算法的“副产品”。