机器学习之:特征向量选取

本系列介绍机器学习中的在实际应用和理论研究中的一些重要的方向。这些文章能给大家起到抛砖引玉的作用。一些细节或者深入的讨论可在每篇博文最后列出的文献中找到。本篇博文介绍特征向量选取。在机器学习中, 特种向量选取是整个机器学习系统中非常重要的一步。


假设特征向量总共有d个,那么选取这d个向量中重要的特征向量就有2^d种组合。很显然,穷举法是无法进行的,特别是当d的数目非常大的时候。特征向量选取大致可以分为两种:1.过滤法(filter method); 2. 封装法(wrapper method)[1]。 过滤法是与后续的分类方法相独立的,而封装法是依赖于后续的分类方法。总体让来说,过滤法高效与封装法。而封装法通常会有更好的效果。以下特征向量选取与特征向量提取以及sparse coding等相关问题的对比介绍。

 

1. 特征向量选取 VS. 特征向量提取


请注意特征向量的选取有别于特征向量提取。前者的英文是feature selection, 而后者是feature extraction. 特征向量提取是直接作用于原始数据上的。比如,给定一组文档,我们的任务是要做文档分类。直接将文档输入给分类器是无法工作的,因为每篇文档有不同的字不一样,字的数目也不一样。而绝大多数的分类器只是接受标准化的矩阵格式的输入,比如每一行是一篇文档,每一列是文档的属性(特征)。 将原始文档转化为标准的矩阵格式输入的过程就可看作是特征向量提取。特征向量提取之后,通常特征向量的个数非常多,并且包含有很多没有用的特征(或者说对后边的分类器没有用),也包含了许多冗余的特征向量。此时,从特征向量提取后所得的特征向量中,选择对分类器最有用的和最重要的特征向量的过程就叫做特征向量选取。

2. 非线性特征向量选

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值