机器学习与智能优化 之 排序与选择特征

要点

减少一个模型使用的输入特征同时保持性能大体一致有诸多好处:模型尺寸更小、便于人类理解、训练和运行速度更快、可能更高的泛化能力。

在不考虑特定模型方法和它们之间关系的情况下很难对独立的特征进行排序。想想一个侦探(这相当与是一个“有罪”和“清白”的分类器)只有智能地综合众多线索,排除令人迷惑的证据,才能得到正确的结论。排序和过滤只是初步的探索,还需要结合所选方法在不同特征集上去尝试验证,并用特征选择过程去包装这个方法。

简言之:仅当你猜测是线性关系的时候,才去信任相关系数。不然的话,可以使用其他的相关评价方法,例如相关率可以甚至衡量输出不是定量的情况。用卡方通过估计独立与联合事件的概率来辨明输入与输出间可能的独立性。最后,用强大的互信息来估计任意定量或定性特征间的独立性,但要注意仅提供少量样本情况下可能出现的过高估计。

作为练习,捡起你最喜欢的福尔摩斯小说,去找到他用地是哪种特征(线索,证据)选择方法去抓住和揭露一个罪犯并且让他的朋友华生点赞的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值