特征工程--数值特征归一化

最新推荐文章于 2023-02-21 15:40:00 发布

牧羊LL

最新推荐文章于 2023-02-21 15:40:00 发布

阅读量312

点赞数

分类专栏：机器学习知识点总结文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45795305/article/details/125691374

版权

机器学习知识点总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章特征工程

特征工程顾名思义是对原始数据进行一些了工程处理，将其提炼为特征，作为输入供算法和模型实现。
本章主要讨论两种常用的数据类型：

结构化数据。结构化数据类型可以看做关系型数据库的一张表，有清晰的定义，包含了数值型，类别型两种基本类型，每一行数据表示一个样本的信息
非结构化数据。非结构化睡主要包括文本，图像，音评，视频数据，其包含的信息无法用一个简单的数值表示，也没有清晰的类别定义，并且每条数据的大小各不相同

01特征归一化

为了消除数据特征之间的量纲影响，我们需要对特征进行归一化处理，使得不同指标之间具有可比性。例如，分析一个人的身高和体重对健康个的影响，如果使用米m和千克kg做单位，那么身高特征会在1.6-1.8m的数值范围内，体重会在50-100kg的范围内，分析出来的结果会倾向于数值差别比较大的体重特征。想要得到更为准确的记过，就需要进行特征归一化（Normalization）处理，使各指标处于同一数值量级，以便进行分析

1. 为什么需要对数值类型的特征做归一化

对数之类的的特征做归一化可以讲所有的特征都统一到一个大致相同的数值区间内。
常用的方法主要有以下两种

线性函数归一化Min-Max Scaling
它对原始数据进行线性比那还，使结果映射到【0，1】的范围，实现对原始数据的等比缩放
（x-xmin）/ （xmax-xmin）
零均值归一化Z-Score Normalization
它会讲原始数据映射到均值为0，标准差为1的分布上，具体来说，假设原始特征的均值为u，标准差为m ：
（x-u） / m

为什么需要对数值型特征做归一化？不妨借助随机梯度下降的实际例子来说明归一化的重要性，假设有两种数值型特征，x1范围大于x2.
在学习速率相同的情况下，x1的更新速度会大于x2，需要较多的迭代才能找到最优解，如果将x1和x2归一化到相同的数值区间后，优化目标的等值图就会从椭圆变成正圆，x1和x2的更新速度变得更为一致，容易更快的通过梯度下降找到最优解

当然，数据归一化并不是万能的，在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归，逻辑回归，只会向量机，神经网络等模型，但对于决策树模型则并不适用，决策树在进行结点分类是主要依据数据集D关于特征x的信息增益比，而信息增益比跟特征是否经过归一化是无关的，因为归一化并不会改变样本在特征x上的信息增益

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
特征工程--数值特征归一化

特征工程顾名思义是对原始数据进行一些了工程处理，将其提炼为特征，作为输入供算法和模型实现。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。