1 特征工程

1 特征工程

01 特征归一化、标准化

方法

  1. 归一化–线性函数归一化(Min-Max Scaling)

  2. 标准化–零均值归一化(Z-Score Normalization)

原因

  • 参数更新速度变得更为一致,收敛速度更快。

特点

  • 标准化是更常用的手段,归一化的应用场景是有限的。

  • 标准化更好保持了样本间距。

  • 标准化更符合统计学假设。

  • 必须要特征在0到1之间,此时就只能用归一化。

  • 决策树模型不适用,信息增益比跟特征是否经过归一化是无关的。

02 类别型特征

  1. 序号编码
    • 处理类别间具有大小关系的数据。 例如成绩
  2. 独热编码
    • 处理类别间不具有大小关系的特征。 例如血型
  3. 二进制编码

03/04 组合特征

  1. 什么是组合特征
    • 把一阶离散特征两两组合, 构成高阶组合特征。
  2. 如何处理高维组合特征
    • 矩阵分解
  3. 如何选择组合特征
    • 决策树

05 文本表示模型

  1. 词袋模型
    • 将整段文本以词为单位切分开, 然后每篇文章可以表示成一个长向量, 向量中的每一维代表一个单词, 而该维对应的权重则反映了这个词在原文章中的重要程度。
    • TF-IDF
      • 词频-逆文本频率
    • N-gram模型
      • 将连续 出现的n个词(n≤N) 组成的词组(N-gram) 也作为一个单独的特征放到向量表示 中去, 构成N-gram模型。
  2. 主题模型
  3. 词嵌入与深度学习模型
    • 词嵌入是一类将词向量化的模型的统称, 核心思想是将每个词都映射成低维空间(通常K=50~300维) 上的一个稠密向量(Dense Vector) 。

06 Word2Vec

  1. Word2Vec的两种网络结构
    • CBOW是根据上下文出现的词语来预测当前词的生成概率
    • Skip-gram是根据当前词来预测上下文中各词的生成概率
  2. Word2Vec与LDA的区别和联系
    1. LDA是利用文档中单词的共现关 系来对单词按主题聚类, 也可以理解为对“文档-单词”矩阵进行分解, 得到“文档- 主题”和“主题-单词”两个概率分布。
    2. Word2Vec其实是对“上下文-单词”矩阵进行 学习, 其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了 上下文共现的特征。

07 图像数据不足时的处理方法

  1. 过拟合的处理方法
    • 基于模型的方法
      1. 简化模型
      2. 正则化
      3. 集成学习
      4. dropout
    • 基于数据的方法
      1. 数据扩充
  2. 图像变换方法
    • 一定程度内的随机旋转、 平移、 缩放、 裁剪、 填充、 左右翻转等
    • 对图像中的像素添加噪声扰动, 比如椒盐噪声、 高斯白噪声等
    • 颜色变换
    • 改变图像的亮度、 清晰度、 对比度、 锐度等。
  3. 上采样
    • SMOTE(Synthetic Minority Over-sampling Technique) 算法
  4. 迁移学习
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值