章节主要内容:
1 特征归一化
2 类别型特征
3 高维组合特征的处理
4 组合特征
5 文本表示模型
6 word2vec
7 图像数据不足时的处理方法
章节问题:
数据和特征是机器学习的基础,模型与算法则是处理工具。二者缺一不可。
特征工程:将原始数据进行处理,将其提炼为特征。旨在除去数据中的杂质与冗余,设计更高效的特征。
为什么对数值类型的特征做归一化?
将特征都统一到大致相同的范围,便于处理,常见方式:线性函数归一化,零均值归一化。不过决策树不适合归一化,因为决策树的决策是基于特征的信息增熵,与特征是否归一化无关。而其他模型如线性回归,支持向量机,神经网络,归一化后更容易操作。
如何处理类别型特征?
类别型特征是指如男女,血型等只在有限选项取值的特征。其原始输入通常是字符串形式。
一般采用:序号编码,独热编码(稀疏二进制数值),二进制编码处理
什么是组合特征?如何处理高维组合特征?
组合特征是将离散的特征两两组合起来够成高阶特征。但是高阶特征会导致参数规模巨大,此时可以采用矩阵分解进行降维。降低参数计算量
怎样有效地找到组合特征?
使用决策树,每一个从根节点到叶节点的路径都是特征组合的方式。
有哪些文本表示模型?各有什么优缺点?
词袋模型:最基础的模型,将整段文章看作词语组合,切割词语。
TF-IDF模型:TF-IDF公式可以计算权重
N-gram模型:将切割单词变成切割词组
主题模型:从文本库中发现代表性的主题,计算每篇文章的主题分布。
词嵌入模型:核心是将词映射为低维空间上的稠密向量,低维空间上的每一维可以看成是一个隐含的主题。通常用卷积神经网络或者循环神经网络进行进一步的特征加工处理
如何缓解图像分类任务中训练数据不足带来的问题?
一个模型提供的信息一半来自两方面:训练数据中的蕴含信息;模型形成过程中人们提供的先验信息。
数据不足容易导致过拟合,可以采取两类方法:第一类基于模型。主要包括简化模型,添加约束项,集成学习
第二类基于数据,采用信息扩充,可以对原始数据进行适当变换得到新数据。
(迁移学习,生成对抗网络生成新样本,图像处理,上采样技术,数据扩充)
word2vec是如何工作的?它和隐迪利克雷模型有什么区别与联系?
word2vec是对上下文-单词矩阵进行学习,而LDA则是对文档-单词进行分解得到文档-主题,主题-单词矩阵