西瓜书-第11章-特征选择与稀疏学习

特征选择

特征选择是一个重要的数据预处理过程,去除不相关的属性,可以减轻维数灾难,并且降低学习任务的难度。
特征选择过程必须确保不丢失重要特征。
需要去除的特征如无关特征冗余特征(冗余特征有时能简化问题,具体问题具体分析)。

特征选择的主要环节

1、子集搜索
前向搜索:假定特征子集{a2}最优,再把{a2}与剩余的各个特征子集组合出{a2,ai}评估,如果{a2,a4}最优,则保留,再用{a2,a4}进行下一轮组合,直至迭代到得不到优化为止。
后向搜索:从完整的特征集合开始,每次尝试去掉一个无关特征,类似前向每次增加最优的一个,而后向是每次去掉最差的一个。
双向搜索:结合前后向搜索。
上述策略都是贪心的,如果没有穷举搜索,则无法找出全局最优组合。
2、子集评价
通过信息增益、不合度量、相关系数等度量对特征子集进行优劣的评估。
如将前向搜索和信息熵组合,与决策树算法非常相似。

三类特征选择

1、过滤式选择
先选择,后训练。
代表算法:Relief(适用于二分类问题)、Relief-F(适用于多分类问题)
2、包裹式选择
训练出的学习器性能作为特征子集的评价标准,效果更佳,但开销大。
代表算法:LVW,开销大,可给定终止条件T。
3、嵌入式选择
特征选择和训练过程再同一个优化过程中完成,即:在训练过程中自动进行特征选择

稀疏表示与字典学习

稀疏性能使大多数问题变得线性可分。
要恰当稀疏不要过度稀疏。
字典学习(稀疏编码):为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式。
字典学习更侧重于学得字典的过程,稀疏编码更侧重于对样本进行稀疏表达的过程。
通过设置词汇量k的大小来控制字典的规模,从而影响到稀疏程度。

压缩感知

压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号
压缩感知分为两个阶段:
1、感知测量:对原始信号进行处理以获得稀疏样本表示,这方面的内容涉及傅里叶变换、小波变换、字典学习、稀疏编码等。
2、重构恢复:基于稀疏性从少量观测中恢复原信号,压缩感知的精髓,通常说的压缩感知就是指的这部分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值