特征共线性是指两个特征a和b具有非常大的关联,比如x = 2 * y。这会对数据建模造成一些问题。
从算法角度:
对于线性模型:
会对特征权重的解释性造成问题。
对于树模型:
会对特征重要性产生稀释,导致解释性变弱。
集成学习算法效果好的一个非常重要的问题是和而不同,如果出现大量的特征共线性问题会造成很很多棵树一致,导致准确度下降。
从数据的角度:
特征过多,会造成更大可能的异常数据代入的可能性,造成准确度降低。
特征共线性是指两个特征a和b具有非常大的关联,比如x = 2 * y。这会对数据建模造成一些问题。
从算法角度:
对于线性模型:
会对特征权重的解释性造成问题。
对于树模型:
会对特征重要性产生稀释,导致解释性变弱。
集成学习算法效果好的一个非常重要的问题是和而不同,如果出现大量的特征共线性问题会造成很很多棵树一致,导致准确度下降。
从数据的角度:
特征过多,会造成更大可能的异常数据代入的可能性,造成准确度降低。