特征的提取与分析（未完结）

最新推荐文章于 2023-08-26 10:25:26 发布

Yzy_Carlisle

最新推荐文章于 2023-08-26 10:25:26 发布

阅读量855

点赞数

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/Function_K/article/details/106997463

版权

许多的工程项目都具备通用的范式，一般情况下，一个人工智能项目会遵循以下图1的流程。在第一章中，我们简单地了解了一些相关数据的知识还有一些常见的，基本的数据预处理方法。本文主要介绍特征的提取与分析。

特征的构造

所谓特征的提取，用最直白的话讲：就是把我们拥有的数据（人类能理解和收集到的），提取成能够胜任对应任务的特征，方便后续加以应用。特征提取的方法多种多样，维度有高有低有稠密有稀疏，这也是使得机器学习和深度学习，对于同一类问题有多样化解决方案的最直接和根本的原因。

首先，我们简单谈谈为什么要进行特征的提取。我们通常见到的数据，无论是文本，数值数据，还是图像，都可以被视为是混合信号。这些信号包含着复杂而全面的信息，其中一些特征可能被用于完成合成任务，一些可能适合被用于分类任务，一些可能适合进行回归分析。那么，这些特征本质上的来源都是数据本身。但通过不同的提取手段，将这些数据映射到了特征空间中，从而使得原本不好用的数据，变得好用了起来。举个最直观的例子：

当你有一组数据，左边蓝色方形区域代表包含的全部特征信息。这里我们首先提取2个维度的特征，并从2D的层面上直接进行观测，对应的结果则是图2中的左侧部分。从这个散点分布结果来看，是很难找到一个分界线，对黄色和橘色点进行大体上正确的分类的。那么我们这里假设，它升了一个维度变成了三维（如图2右侧所示）。这个时候，我们就可以很容易地找到一个分类的平面，将两种不同的点分开，这就是特征提取的意义。

其实道理很简单，就像我们在区分雪碧和可乐是一样的。我们首先给的两个特征是：碳酸饮料和甜的。这两个特征并没有办法很好地描述二者的区别，但是他们都是二者的属性之一。那么我们继续从蓝色的全部信息中提取一个新的维度的特征（如：饮料的颜色），这个时候到了右边的图，我们可以发现在从这个特征的角度出发，可以很容易区分出两种饮料。OK那么到此，我们提取的特征已经足够我们对可乐和雪碧进行区分了，这就是特征提取和它的意义。