百面机器学习-特征工程

特征工程是机器学习中的关键步骤,涉及数值特征的归一化、类别特征的编码、高维组合特征的处理以及文本和图像数据的表示。Word2Vec等模型用于文本表示,当图像数据不足时,数据增强和生成对抗网络等技术可提升模型性能。本文详细探讨了这些重要概念和技术。
摘要由CSDN通过智能技术生成


提取原始数据的特征,作为输入供算法和模型使用。实际工作中特征工程是去除原始数据中的杂质和冗余,设计更加高效的特征以求刻画求解的问题与预测模型之间的关系。
原始数据包括结构化数据和非结构化数据,前者类似于一个表,后者指代的是图像文本语音等。

1.特征归一化

包含归一化和标准化。
对数值类型的特征做归一化,可以将所有的特征都统一到一个大致数值相同的区间。若不归一化,因为数值区间不同会导致对模型的影响程度不同。例如:梯度下降算法,区间大的值则会更新快一点。

2.类别特征

类别特征原始输入都是字符串型需要进行处理。
1.序号编码:处理具有大小关系的数据进行编码。
2.独热编码(one-hot编码):处理不具有大小关系的数据。使用稀疏向量来节省空间,配合特征选择来降低维度。
3.二进制编码:先进行序号编码再进行二进制编码。

3.高维组合特征处理

组合特征:
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。
高维特征计算大因此我们需要降维,通过矩阵分解或者特征筛选

4.组合特征

如何找到有效的组合特征:基于决策树的特征组合寻找方法。每一条从根节点到叶节点的路径都可以看作成一种特征组合的方式。

5.文本表示模型

文本时一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。
文本表示模型:
词袋模型:整段文本以词为单位分开,然后每篇文章表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程度。

6.Word2Vec

词嵌入模型。是一种浅层的神经网络模型。

7.图像数据不足时的处理办法

数据增强,生成对抗网络,上采样技术

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值