在利用一些机器学习模型分类的时候,一般都会进行特征选择过程,消除掉冗余特征和高度相关特征,比如朴素贝叶斯,逻辑斯蒂。为什么要这么做呢?主要有以下两个原因。
1) 一个原因比较显而易见,就是若冗余特征过多,会造成特征数目过多,从而分析特征,训练模型所需要的时间就会越长;
2) 冗余特征会使得并没有增加输入信息的前提下增加模型判别的置信度,这显然是不合理的。
下面着重解释下原因(2),为什么冗余特征会增加模型判别的置信度:
以朴素贝叶斯为例,由贝叶斯公式可以推导:
p(y|x)=p(y)⋅∏i=1np(xi|y)∑y∏i=1np(xi|y)