特征的提取与分析(未完结)

许多的工程项目都具备通用的范式,一般情况下,一个人工智能项目会遵循以下图1的流程。在第一章中,我们简单地了解了一些相关数据的知识还有一些常见的,基本的数据预处理方法。本文主要介绍特征的提取与分析。

图1 项目设计基本环节

 

 

特征的构造

所谓特征的提取,用最直白的话讲:就是把我们拥有的数据(人类能理解和收集到的),提取成能够胜任对应任务的特征,方便后续加以应用。特征提取的方法多种多样,维度有高有低有稠密有稀疏,这也是使得机器学习和深度学习,对于同一类问题有多样化解决方案的最直接和根本的原因。

首先,我们简单谈谈为什么要进行特征的提取。我们通常见到的数据,无论是文本,数值数据,还是图像,都可以被视为是混合信号。这些信号包含着复杂而全面的信息,其中一些特征可能被用于完成合成任务,一些可能适合被用于分类任务,一些可能适合进行回归分析。那么,这些特征本质上的来源都是数据本身。但通过不同的提取手段,将这些数据映射到了特征空间中,从而使得原本不好用的数据,变得好用了起来。举个最直观的例子:

图2 特征的提取

当你有一组数据,左边蓝色方形区域代表包含的全部特征信息。这里我们首先提取2个维度的特征,并从2D的层面上直接进行观测,对应的结果则是图2中的左侧部分。从这个散点分布结果来看,是很难找到一个分界线,对黄色和橘色点进行大体上正确的分类的。那么我们这里假设,它升了一个维度变成了三维(如图2右侧所示)。这个时候,我们就可以很容易地找到一个分类的平面,将两种不同的点分开,这就是特征提取的意义。

其实道理很简单,就像我们在区分雪碧和可乐是一样的。我们首先给的两个特征是:碳酸饮料和甜的。这两个特征并没有办法很好地描述二者的区别,但是他们都是二者的属性之一。那么我们继续从蓝色的全部信息中提取一个新的维度的特征(如:饮料的颜色),这个时候到了右边的图,我们可以发现在从这个特征的角度出发,可以很容易区分出两种饮料。OK那么到此,我们提取的特征已经足够我们对可乐和雪碧进行区分了,这就是特征提取和它的意义。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值