特征工程之特征缩放&特征编码

本文介绍了特征缩放和特征编码在机器学习中的重要性。特征缩放包括归一化和正则化,用于消除量纲影响和加速模型训练。归一化方法如Min-Max Scaling和Z-Score Normalization,而正则化则通过范数缩放改善模型性能。特征编码涉及序号编码、独热编码、二进制编码和离散化等,其中独热编码常用于处理类别型特征,而离散化有助于提升模型稳定性。
摘要由CSDN通过智能技术生成

机器学习入门系列(2)–如何构建一个完整的机器学习项目,第五篇!

该系列的前四篇文章:

本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续型特征。


3.2 特征缩放

特征缩放主要分为两种方法,归一化和正则化。

3.2.1 归一化
  1. 归一化(Normalization),也称为标准化,这里不仅仅是对特征,实际上对于原始数据也可以进行归一化处理,它是将特征(或者数据)都缩放到一个指定的大致相同的数值区间内
  2. 归一化的两个原因
  • 某些算法要求样本数据或特征的数值具有零均值和单位方差
  • 为了消除样本数据或者特征之间的量纲影响,即消除数量级的影响。如下图所示是包含两个属性的目标函数的等高线
    • 数量级的差异将导致量级较大的属性占据主导地位。从下图左看到量级较大的属性会让椭圆的等高线压缩为直线,使得目标函数仅依赖于该属性。
    • 数量级的差异会导致迭代收敛速度减慢。原始的特征进行梯度下降时,每一步梯度的方向会偏离最小值(等高线中心点)的方向,迭代次数较多,且学习率必须非常小,否则非常容易引起宽幅震荡。但经过标准化后,每一步梯度的方向都几乎指向最小值(等高线中心点)的方向,迭代次数较少
    • 所有依赖于样本距离的算法对于数据的数量级都非常敏感。比如 KNN 算法需要计算距离当前样本最近的 k 个样本,当属性的量级不同,选择的最近的 k 个样本也会不同。

图来自《百面机器学习》

  1. 常用的两种归一化方法:
  • 线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使得结果映射到[0,1]的范围,实现对原始数据的等比缩放,公式如下:

X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=XmaxXminXXmin

其中 X 是原始数据, X m a x , X m i n X_{max}, X_{min} Xmax,X

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
特征工程机器学习中非常重要的一步,它涉及到对原始数据进行处理和转换,以提取出对模型训练和预测有用的特征特征工程的重要性评估主要包括以下几个方面: 1. 数据理解和探索:通过特征工程,可以对数据进行可视化和统计分析,了解数据的分布、缺失值、异常值等情况,帮助我们更好地理解数据。 2. 特征选择:在特征工程中,我们需要选择对目标变量有较强相关性的特征。通过评估特征与目标变量之间的相关性,可以选择最具预测能力的特征,提高模型的准确性和泛化能力。 3. 特征转换和编码:原始数据中可能存在非数值型数据或者不符合模型要求的数据形式,需要进行特征转换和编码。例如,将类别型变量进行独热编码、标签编码等操作,将文本数据进行词袋表示或者词嵌入表示等操作。 4. 特征衍生和组合:通过特征工程,可以根据领域知识或者数据分析的结果,创建新的特征或者将多个特征进行组合,以提取更多的信息。例如,通过时间戳提取出年、月、日等特征,或者通过数值特征的加减乘除等操作创建新的特征。 5. 特征缩放和归一化:不同特征的取值范围可能存在差异,需要进行特征缩放和归一化,以保证各个特征对模型的影响权重相对均衡。 6. 特征重要性评估:通过特征工程,可以得到每个特征对模型的重要性评估结果。这些评估结果可以帮助我们进一步优化特征工程的过程,选择更加有效的特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

spearhead_cai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值