百面机器学习-特征工程

最新推荐文章于 2024-09-01 11:13:59 发布

闲看庭前梦落花

最新推荐文章于 2024-09-01 11:13:59 发布

阅读量794

点赞数

分类专栏：面试文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51607165/article/details/123653340

版权

面试专栏收录该内容

17 篇文章 3 订阅

订阅专栏

特征工程是机器学习中的关键步骤，涉及数值特征的归一化、类别特征的编码、高维组合特征的处理以及文本和图像数据的表示。Word2Vec等模型用于文本表示，当图像数据不足时，数据增强和生成对抗网络等技术可提升模型性能。本文详细探讨了这些重要概念和技术。

摘要由CSDN通过智能技术生成

第一章特征工程

1.特征归一化
2.类别特征
3.高维组合特征处理
4.组合特征
5.文本表示模型
6.Word2Vec
7.图像数据不足时的处理办法

提取原始数据的特征，作为输入供算法和模型使用。实际工作中特征工程是去除原始数据中的杂质和冗余，设计更加高效的特征以求刻画求解的问题与预测模型之间的关系。
原始数据包括结构化数据和非结构化数据，前者类似于一个表，后者指代的是图像文本语音等。

1.特征归一化

包含归一化和标准化。
对数值类型的特征做归一化，可以将所有的特征都统一到一个大致数值相同的区间。若不归一化，因为数值区间不同会导致对模型的影响程度不同。例如：梯度下降算法，区间大的值则会更新快一点。

2.类别特征

类别特征原始输入都是字符串型需要进行处理。
1.序号编码：处理具有大小关系的数据进行编码。
2.独热编码（one-hot编码）：处理不具有大小关系的数据。使用稀疏向量来节省空间，配合特征选择来降低维度。
3.二进制编码：先进行序号编码再进行二进制编码。

3.高维组合特征处理

组合特征：
为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。
高维特征计算大因此我们需要降维，通过矩阵分解或者特征筛选。

4.组合特征

如何找到有效的组合特征：基于决策树的特征组合寻找方法。每一条从根节点到叶节点的路径都可以看作成一种特征组合的方式。

5.文本表示模型

文本时一类非常重要的非结构化数据，如何表示文本数据一直是机器学习领域的一个重要研究方向。
文本表示模型：
词袋模型：整段文本以词为单位分开，然后每篇文章表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。

6.Word2Vec

词嵌入模型。是一种浅层的神经网络模型。

7.图像数据不足时的处理办法

数据增强，生成对抗网络，上采样技术

闲看庭前梦落花

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习-特征工程

第一章特征工程1.特征归一化2.类别特征3.高维组合特征处理4.组合特征5.文本表示模型6.Word2Vec7.图像数据不足时的处理办法提取原始数据的特征，作为输入供算法和模型使用。实际工作中特征工程是去除原始数据中的杂质和冗余，设计更加高效的特征以求刻画求解的问题与预测模型之间的关系。原始数据包括结构化数据和非结构化数据，前者类似于一个表，后者指代的是图像文本语音等。1.特征归一化包含归一化和标准化。对数值类型的特征做归一化，可以将所有的特征都统一到一个大致数值相同的区间。若不归一化，因为数值
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。