机器学习之：特征向量选取

最新推荐文章于 2024-06-02 22:14:29 发布

langwaipo981

最新推荐文章于 2024-06-02 22:14:29 发布

阅读量1.1w

点赞数

文章标签：机器学习模式识别特征向量提取机器学习

本文链接：https://blog.csdn.net/langwaipo981/article/details/9362413

版权

本文探讨机器学习中的特征向量选取，包括过滤法和封装法，对比特征向量选取与提取，指出非线性特征向量选取在处理如XOR问题时的重要性，并引用相关研究文献。

摘要由CSDN通过智能技术生成

本系列介绍机器学习中的在实际应用和理论研究中的一些重要的方向。这些文章能给大家起到抛砖引玉的作用。一些细节或者深入的讨论可在每篇博文最后列出的文献中找到。本篇博文介绍特征向量选取。在机器学习中，特种向量选取是整个机器学习系统中非常重要的一步。

假设特征向量总共有d个，那么选取这d个向量中重要的特征向量就有2^d种组合。很显然，穷举法是无法进行的，特别是当d的数目非常大的时候。特征向量选取大致可以分为两种：1.过滤法（filter method）; 2. 封装法（wrapper method）[1]。过滤法是与后续的分类方法相独立的，而封装法是依赖于后续的分类方法。总体让来说，过滤法高效与封装法。而封装法通常会有更好的效果。以下特征向量选取与特征向量提取以及sparse coding等相关问题的对比介绍。

1. 特征向量选取 VS. 特征向量提取

请注意特征向量的选取有别于特征向量提取。前者的英文是feature selection, 而后者是feature extraction. 特征向量提取是直接作用于原始数据上的。比如，给定一组文档，我们的任务是要做文档分类。直接将文档输入给分类器是无法工作的，因为每篇文档有不同的字不一样，字的数目也不一样。而绝大多数的分类器只是接受标准化的矩阵格式的输入，比如每一行是一篇文档，每一列是文档的属性（特征）。将原始文档转化为标准的矩阵格式输入的过程就可看作是特征向量提取。特征向量提取之后，通常特征向量的个数非常多，并且包含有很多没有用的特征（或者说对后边的分类器没有用），也包含了许多冗余的特征向量。此时，从特征向量提取后所得的特征向量中，选择对分类器最有用的和最重要的特征向量的过程就叫做特征向量选取。

2. 非线性特征向量选

最低0.47元/天解锁文章

langwaipo981

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
机器学习之：特征向量选取

在机器学习中，特种向量选取是整个机器学习系统中非常重要的一步。1.1. 特征向量选取 VS. 特征向量提取请注意特征向量的选取有别于特征向量提取。前者的英文是feature selection, 而后者是feature extraction. 特征向量提取是直接作用于原始数据上的。比如，给定一组文档，我们的任务是要做文档分类。直接将文档输入给分类器是无法工作的，因为每篇文档有不同的字
复制链接

扫一扫