【百面机器学习笔记——第一章特征工程】

最新推荐文章于 2024-07-26 13:24:37 发布

书玮嘎

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量915

点赞数

文章标签：人工智能计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selami/article/details/123318781

版权

百面机器学习笔记——第一章特征工程

01 特征归一化
02 类别型特征
03 高维组合特征的处理
04 特征组合
07 图像数据不足时的处理方法

01 特征归一化

原因：
消除量纲带来的不同数值量级的影响，防止梯度下降过程中不同方向下降速度不同，而增加迭代次数，尽快找到最优解
方法：

线性函数归一化：将原始数据等比例缩放到[0，1]
$X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}$
零均值归一化：将原始数据映射到均值为0，标准差为1的分布上
$\frac{x-\mu }{\epsilon}$

适用范围：
通过梯度下降法求解的模型，如线性回归、逻辑回归、支持向量机、神经网络
不适用于决策树模型

02 类别型特征

常见编码方式及适用情况：

序号编码：按照大小关系赋予ID，能保留大小关系，如：成绩
独热编码：不具有大小关系，如：血型
One-hot编码时，如果类别较多，会带来问题：
1）K邻近中，高维空间两点距离难衡量
2）逻辑回归中，维度高，参数多，容易发生过拟合
解决办法：
1）可以使用稀疏向量节省空间，什么是稀疏向量
2）可以配合特征选择降低维度。
二进制编码：利用二进制对ID进行哈希映射，并且维度小于One-hot编码

03 高维组合特征的处理

问题：
把一维离散线性特征进行两两组合，得到高维特征，从而获得更好的复杂关系拟合能力。如果维度过高，进行降维处理

04 特征组合

问题：
单纯将一维特征两两组合，是非常低效的，可以使用决策树筛选特征

07 图像数据不足时的处理方法

问题：
一个模型的性能主要有两个来源：数据蕴含和先验信息。当数据不足时就需要通过更多先验进行补充。对图像来说，数据不足的主要问题是过拟合，泛化效果不佳。
解决方案：
依据作用环节，主要有如下解决方案：

基于模型结构：简化模型（非线性变为线性）、增加约束项缩小假设空间（L1,L2正则项）、集成学习、Dropout等
基于数据：数据增强（旋转、尺寸、裁剪、噪声、RGB、HSV等），对特征上采样生成样本，GAN 生成新样本
迁移学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【百面机器学习笔记——第一章特征工程】

特征工程——数据相关操作
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。