学习记录-------特征选择(子集搜索+子集评价)

特征工程:子集搜索与子集评价

  • 1、相关知识:

     特征:描述目标的属性。
     
     特征选择:从原始特征集合中选取一个包含了所有重要信息的特征子集。
     
     特征类型:相关特征、无关特征、冗余特征。
     
     为什么需要特征选择:
     a) 缓解维数灾难问题,该动机类似于特征降维;
     b) 去除不相关特征往往会降低学习任务的难度。
     
     如何特征选择:
     
     特征选择 = 子集搜索 + 子集评价
    
  • 2、解决方式(思想):

     产生“候选子集”并对其进行评价,基于评价结果产生下一个候选子集,
     
     重复以上操作直到无法找到更好的候选子集。
    
  • 3、子集搜索

     (贪心搜索减少计算,寻找局部最优而非全局)
     
     a) 前向搜索:将每个特征看作一个候选子集,逐渐增加相关特征的策略。
     
     b) 后向搜索:从完整的特征集合开始,逐渐减少无关特征的策略。
     
     c) 双向搜索:结合前向和后向,每轮增加选定相关特征,同时减少无关特征。
    
  • 4、 子集评价

     常用信息增益评价子集,类似决策树。
     
     信息熵:描述信息的混乱程度,信息的不确定程度。(10个棋子中,5个黑色5个白,此时任意取一个,
     		棋子是黑或白的概率都是0.5,不确定程度最大,信息最混乱,熵也最大。)
     
     条件熵:在某一条件下,信息的不确定性。
     
     信息增益&#
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值