文章目录
1. 为什么需要对数值类型的特征做归一化?
常用特征归一化:
- 线性函数: X n o r m = X − X m i n X m a x − X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnorm=Xmax−XminX−Xmin
- 零均值归一化: z = x − μ x − δ z=\frac{x-\mu}{x-\delta} z=x−δx−μ
使用归一化可以使得特征变得更为一致,容易更快地通过梯度下降找到最优解。
PS:决策树不适用归一化,因为以C4.5为例, 决 策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比,而信息增益比跟特征是否经过归一化是无关的, 因为归 一化并不会改变样本在特征x上的信息增益
2. 在对数据进行预处理时,应该怎样处理类别型特征?
- Ordinal Encoding: eg,1,2,3…
- One-hot Encoding:
- 使用稀疏向量来节省空间
- 配合特征选择来降低维度
- Binary Encoding
其他编码:Helmert Contrast, Polynomial Contrast etc.
3. 有哪些文本表示模型?
- 词袋模型和N-gram模型
- 词袋模型: 将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程度。
常用 TF-IDF计算权重:
T
F
−
I
D
F
(
t
,
d
)
=
T
F
(
t
,
d
)
×
I
D
F
(
t
)
TF-IDF(t,d)=TF(t,d)×IDF(t)
TF−IDF(t,d)=TF(t,d)×IDF(t)
F(t,d): 单词t在文档d中出现的频率
IDF(t): 逆文档频率,表示单词t对表达语义所起的重要性。
IDF(t)=log(文章总数 / 包含单词t的文章总数+1)
- N-gram模型:将连续出现的n个词(n≤N) 组成的词组(Ngram) 也作为一个单独的特征放到向量表示中去, 构成N-gram模型。
- 主题模型
- 词嵌入与深度学习模型
4. Word2Vec是如何工作的?
CBOW的目标是根据上下文出现的词语来预测当前词的生成概率,而Skip-gram是根据当前词来预测上下文中各词的生成概率,如图所示。
CBOW 和 Skip-gram都可以表示成由输入层(Input)、映射层(Projection)和输出层(Output) 组成的神经网络
- Input: 每个词都有one-hot encoding编码
- Projection: K个隐含单元(HiddenUnits)的取值可以由N维输入向量以及连接输入和隐含单元之间的N×K维权重矩阵计算得到。在CBOW中,还需要将各个输入词所计算出的隐含单元求和。
- Output: 输出层也是一个N维向量,每维与词汇表中的一个单词相对应。最后,对输出层向量应用Softmax激活函数, 可以计算出每个单词的生成概率。
5. 在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
影响:
图像分类任务中,训练数据不足主要会造成 过拟合,即模型在训练样本上效果不错,但是测试不虚,范化能力不足。
解决:
- 基于模型:简化模型、添加约束项以缩小假设空间(如L1/L2正则项)、集成学习、Dropout等。
- 基于数据: 数据增广(Data Augmentation)
- a. 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等, 这些变换对应着同一个目标在不同角度的观察结果。
- b. 对图像中的像素添加噪声扰动, 比如椒盐噪声、高斯白噪声等。
- c. 颜色变换。例如, 在图像的RGB颜色空间上进行主成分分析, 得到3个主成分的特征向量p1,p2,p3及其对应的特征值 λ1,λ2,λ3, 然后在每个像素的RGB值上添加增量[p1,p2,p3]•[α1λ1,α2λ2,α3λ3]T,其中α1,α2,α3是均值为0、方差较小的高斯分布随机数。
- d. 改变图像的亮度、清晰度、对比度、锐度等。
- 迁移学习:借助已有的其他模型或数据来进行迁移学习在深度学习中也十分常见。例如, 对于大部分图像分类任务,并不需要从头开始训练模型,而是借用一个在大规模数据集上预训练好的通用模型,并在针对目标任务的小数据集上进行微调(fine-tune)。