特征工程与数据预处理概述

特征工程与数据预处理概述

特征工程

一个机器学习系统可以学习的程度主要由训练数据的质量决定。尽管每个学习算法都有其自身的优点和缺点,但系统性能上的差异往往来自于数据的准备方式或者表现形式的不同。
因此特征工程可以理解为数据表示的一个工具。

特征工程可以分为两个阶段:

  • 特征选择:这是识别数据中的重要属性或重要特征的过程。一张图片的潜在特征可能是边缘的位置,角的位置或者几的位置。像OpenCV提供的高级的特征描述符——尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)和加速健壮特征(Speeded Up Robust Features,SURF)。
  • 特征提取:这是把原始数据转换为用于机器学习算法的期望特征空间的实际过程。Harris算法是其中的一个例子,可以使用它从图像中提取角点(即选择的特征)。

特征工程是数据预处理流程的一部分,具体结构如下图所示。
在这里插入图片描述

数据预处理

处理数据时越遵守规则,最后越有可能得到更好的结果。
这个过程第一步就叫作数据预处理,它主要有以下三种形式:

  • 数据格式化:数据可能并不是适合我们处理的那种格式。比如,数据可能保存在一种专有的文件格式中,而我们使用的机器学习算法却无法读取。
  • 数据清理:数据中可能存在无效的或丢失的条目,这些数据需要被清理或移除出去。
  • 数据采样:数据可能对于特定的目的太庞大了,需要把数据以一种巧妙的方式来采样。

数据转换

一旦数据被预处理后就可以进行真正的特征工程了:把预处理后的数据转化为满足特定机器学习算法需要的格式。这个过程通常包括下面三个步骤中的一步或者多步:

  • 缩放:某些机器学习算法常常要求数据在一个特定的范围内,比如需要拥有零均值和单位方差。缩放是将所有的特征(可能有不同的物理单位)变为特定范围内的值的一个过程。
  • 分解:数据集常拥有比我们所能处理的更多的特征。特征分解是把数据压缩成由少量但具有更多信息的数据成分组合的数据的过程。
  • 聚合:有时需要把多个特征聚合成为一个更有意义的特征。比如一个数据集中可能包含每个用户登录web系统的日期和时间,根据特定的任务,这个数据可能通过简单的统计每个用户登录的次数来表示会更为合适。

参考书籍:《机器学习:使用OpenCV和Python进行智能图像处理》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值