第一章特征工程

章节主要内容:

1 特征归一化
2 类别型特征
3 高维组合特征的处理
4 组合特征
5 文本表示模型
6 word2vec
7 图像数据不足时的处理方法

章节问题:
数据和特征是机器学习的基础,模型与算法则是处理工具。二者缺一不可。
特征工程:将原始数据进行处理,将其提炼为特征。旨在除去数据中的杂质与冗余,设计更高效的特征。

为什么对数值类型的特征做归一化?
将特征都统一到大致相同的范围,便于处理,常见方式:线性函数归一化,零均值归一化。不过决策树不适合归一化,因为决策树的决策是基于特征的信息增熵,与特征是否归一化无关。而其他模型如线性回归,支持向量机,神经网络,归一化后更容易操作。

如何处理类别型特征?
类别型特征是指如男女,血型等只在有限选项取值的特征。其原始输入通常是字符串形式。
一般采用:序号编码,独热编码(稀疏二进制数值),二进制编码处理

什么是组合特征?如何处理高维组合特征?
组合特征是将离散的特征两两组合起来够成高阶特征。但是高阶特征会导致参数规模巨大,此时可以采用矩阵分解进行降维。降低参数计算量

怎样有效地找到组合特征?
使用决策树,每一个从根节点到叶节点的路径都是特征组合的方式。

有哪些文本表示模型?各有什么优缺点?
词袋模型:最基础的模型,将整段文章看作词语组合,切割词语。
TF-IDF模型:TF-IDF公式可以计算权重
N-gram模型:将切割单词变成切割词组
主题模型:从文本库中发现代表性的主题,计算每篇文章的主题分布。
词嵌入模型:核心是将词映射为低维空间上的稠密向量,低维空间上的每一维可以看成是一个隐含的主题。通常用卷积神经网络或者循环神经网络进行进一步的特征加工处理

如何缓解图像分类任务中训练数据不足带来的问题?
一个模型提供的信息一半来自两方面:训练数据中的蕴含信息;模型形成过程中人们提供的先验信息。
数据不足容易导致过拟合,可以采取两类方法:第一类基于模型。主要包括简化模型,添加约束项,集成学习
第二类基于数据,采用信息扩充,可以对原始数据进行适当变换得到新数据。
(迁移学习,生成对抗网络生成新样本,图像处理,上采样技术,数据扩充)

word2vec是如何工作的?它和隐迪利克雷模型有什么区别与联系?
word2vec是对上下文-单词矩阵进行学习,而LDA则是对文档-单词进行分解得到文档-主题,主题-单词矩阵

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值