《百面机器学习》--特征工程记录

Garbage in, garbage out.

上面这句话是计算机科学和数学中很常见的概念,输出质量是由输入质量决定的。这句话很好的体现了数据和特征对于一个模型所产出的数据的影响。

特征工程, 顾名思义, 是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用
本章主要讨论以下两种常用的数据类型。
(1) 结构化数据。 结构化数据类型可以看作关系型数据库的一张表每列都有清晰的定义, 包含了数值型、 类别型两种基本类型; 每一行数据表示一个样本的信息。
(2) 非结构化数据。 非结构化数据主要包括文本、 图像、 音频、 视频数据,其包含的信息无法用一个简单的数值表示, 也没有清晰的类别定义, 并且每条数据的大小各不相同。

01 特征归一化

为了消除数据的不同特征之间的量纲影响, 我们需要对特征进行归一化处理, 使得不同指标之间具有可比性

 

 


 


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值