01_机器学习相关笔记——特征工程（1）

等风来随风飘

已于 2022-12-25 10:43:17 修改

阅读量409

点赞数

分类专栏：百面机器学习阅读笔记文章标签：人工智能

于 2022-12-12 19:35:25 首次发布

本文链接：https://blog.csdn.net/qq_29787929/article/details/128289402

版权

百面机器学习阅读笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

01_机器学习相关笔记——特征工程（1）

没有充足的数据、合适的特征，再强大的模型结构也无法得到满意的输出。（Garbage in, garbage out）
对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型、算法的选择及优化则是逐步接近这个上限。
特征工程，对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。（特征工程是表示和展现数据的过程。在实际工作中，旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系）
特征归一化，消除数据特征之间量纲的影响，使得不同指标之间具有可比性。（模型结果会倾向于数值差别较大的题中特征）
数值类型的特征归一化方法：线性函数归一化、零均值归一化。
线性函数归一化，对原始数据进行线性变换，使得结果映射到0-1的范围，实现对原始数据的等比缩放。Xnorm = (X - Xmin) / (Xmax - Xmin)
零均值归一化，将原始数据映射到均值为0，标准差为1的分布上，z = (x - µ) / σ。μ为均值，σ为标准差。x - μ可以使得原始数据x关于原点对称，除以σ会约束原始数据在各个维度上的值在相同的区间内。（方差为标准差的平方，方差表示随机变量与均值的偏离程度，因此偏离大的会除以较大的数值，偏离小的会除以较小的数值，使得原始数据在各个维度上的值在相同的区间内）
数值型特征归一化的重要性，假设有两个不同取值范围的数值型特征，在学习速率相同的情况下，两种数值类型的更新速度会有差异，导致需要较多的迭代更新才能找到较为合适的解，如将两种数值类型归一化到相同的数值区间后，更新速度更为一致，可以经过较少的迭代更新就可以找到较为合适的解。
类别型特征，只在有限选项内取值的特征。
处理类别型特征的方法，序号编码、独热编码、二进制编码
注：笔记内容来源于《百面机器学习》