要点
减少一个模型使用的输入特征同时保持性能大体一致有诸多好处:模型尺寸更小、便于人类理解、训练和运行速度更快、可能更高的泛化能力。
在不考虑特定模型方法和它们之间关系的情况下很难对独立的特征进行排序。想想一个侦探(这相当与是一个“有罪”和“清白”的分类器)只有智能地综合众多线索,排除令人迷惑的证据,才能得到正确的结论。排序和过滤只是初步的探索,还需要结合所选方法在不同特征集上去尝试验证,并用特征选择过程去包装这个方法。
简言之:仅当你猜测是线性关系的时候,才去信任相关系数。不然的话,可以使用其他的相关评价方法,例如相关率可以甚至衡量输出不是定量的情况。用卡方通过估计独立与联合事件的概率来辨明输入与输出间可能的独立性。最后,用强大的互信息来估计任意定量或定性特征间的独立性,但要注意仅提供少量样本情况下可能出现的过高估计。
作为练习,捡起你最喜欢的福尔摩斯小说,去找到他用地是哪种特征(线索,证据)选择方法去抓住和揭露一个罪犯并且让他的朋友华生点赞的。