从机器学习看特征工程

特征工程概述

到底什么是特征工程,为什么需要特征工程?

这一切要从机器学习说起,为了提取知识和做出预测,机器学习使用数学模型来拟合数据;然而数据的表示形式各样,有文本、语音、图像、数值等等,它们并不能直接作为模型的输入。此时模型将特征作为输入,特征就是数据和模型之间的纽带,是原始数据在某个方面的数值表示。

特征工程:指从原始数据中提取特征并将其转换为适合机器学习模型的格式,特征工程没有统一的范式,正确的特征工程应该适合当前的任务

为了更好理解特征工程的重要性,接下来我们梳理一下机器学习流程

机器学习流程

在这里插入图片描述

数据

数据是现实世界的现象的观测,例如一个人的生物特征数据和生活活动。
每份数据都是管中窥豹,只能反映一小部分现实,把这些观测结合起来才能得到一个完整的描述,其中存在测量噪声和缺失值。

从数据到知识的路上,充满了错误的开始和死胡同。“有意栽花花不发,无心插柳柳成荫。”就是最真实的写照,通过数据来理解世界就像是玩拼图,而且可能会有部件的缺失。

模型

数据的数学模型描述了数据不同部分之间的关系,通过数学公式将数值型的变量联系起来,但原始的数据经常不是数值型的,故此时需要用特征工程将数据和模型联系。

特征

特征是原始数据的数值表示,有多种方法可将原始数据转换为数值型的表示,所以特征可以有多种形式,正确的特征应该适合当前的任务,并易于被模型使用。

综述,特征工程将是在给定数据、模型和任务的情况下设计出最合适的特征工程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值