面试问题

最新推荐文章于 2021-11-10 10:37:01 发布

Lygjhr

最新推荐文章于 2021-11-10 10:37:01 发布

阅读量401

点赞数

本文链接：https://blog.csdn.net/Lygjhr/article/details/89220067

版权

面试问题

1. 特征选择的方法
2. 过拟合的解决方法
3. 常见分类模型（ svm ，决策树，贝叶斯等）的优缺点，适用场景以及如何选型
4. 梯度下降的优缺点
5. L1与L2的区别以及如何解决L1求导困难
6.解释 word2vec 的原理
针对实习工作

1. 特征选择的方法

数据预处理 (sklearn)
通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：
1.无量纲化
2.标准化
3.归一化:标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”
4.对定量特征二值化
特征选择：
Filter:过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

2. 过拟合的解决方法

3. 常见分类模型（ svm ，决策树，贝叶斯等）的优缺点，适用场景以及如何选型

svm原理
决策树原理
贝叶斯原理

4. 梯度下降的优缺点

5. L1与L2的区别以及如何解决L1求导困难

L1 范数值指向量中各个元素的绝对值加和，可以实现特征权值稀疏。这样特征就更有解释性。
L2 范数是指向量各元素的平方和然后求平方根。我们让 L2 范数的规则项 ||w||2 最小，可以使得 W 的每个元素都很小，通常很解决 0。越小的参数说明模型越简单，越简单的模型则不容易产生过拟合现象。因为当限制了参数很小时，实际上就限制了多项式模型分量的影响很小。
L1和L2的区别
下降速度不同。L1按一次函数下降，L2按二次函数下降。

L1能产生稀疏性，L2则不能。
L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。

6.解释 word2vec 的原理

针对实习工作

1.Word Embedding定义
Word Embedding 是NLP中一组语言模型和特征学习技术的总称，把词汇表中的单词或者短语映射成由实数构成的向量上(映射)。
Word Embedding是一种词的向量表示，比如，对于这样的“A B A C B F G”的一个序列，也许我们最后能得到：A对应的向量为[0.1 0.6 -0.5]，B对应的向量为[-0.2 0.9 0.7]。
之所以希望把每个单词变成一个向量，目的还是为了方便计算，比如“求单词A的同义词”，就可以通过“求与单词A在cos距离下最相似的向量”来做到。
是一种用于有效学习从文本语料库嵌入的独立词语的统计方法。其核心思想就是基于上下文，先用向量代表各个词，然后通过一个预测目标函数学习这些向量的参数。
该算法给出了两种训练模型，CBOW (Continuous Bag-of-Words Model) 和 Skip-gram (Continuous Skip-gram Model)。CBOW将一个词所在的上下文中的词作为输入，而那个词本身作为输出，也就是说，看到一个上下文，希望大概能猜出这个词和它的意思。通过在一个大的语料库训练，得到一个从输入层到隐含层的权重模型；而Skip-gram它的做法是，将一个词所在的上下文中的词作为输出，而那个词本身作为输入，也就是说，给出一个词，希望预测可能出现的上下文的词。
为什么会产生梯度消失和为什么会梯度爆炸的问题，其实主要问题就是因为在BPTT算法中，以w为例，其求导过程的链太长，而太长的求导链在以tanh为激活函数（其求导值在0~1之间的BPTT中，连乘就会使得最终的求导为0，这就是梯度消失问题，也就是t时刻已经学习不到t-N时刻的参数了。当然，有很多方法去解决这个问题，如LSTMs便是专门应对这种问题的，还有一些方法，比如设计一个更好的初始参数以及更换激活函数（如换成ReLU激活函数）。
如果我们让每次矩阵乘积的效果近似于对元素乘以接近于1的值，问题就能得到解决，但是权重矩阵的值我们无法控制。另外一个思路是避免这种矩阵的累次乘积，目前主流的方法采用LSTM。
LSTM计算思路如下：输入门作用于当前时刻的输入值，遗忘门作用于之前的记忆值，二者加权和，得到汇总信息；最后通过输出门决定输出值。如果将LSTM在各个时刻的输出值进行展开，会发现其中有一部分最早时刻的输入值避免了与权重矩阵的累次乘法。
中文分词（CWS）实习所用语料库：Bakeoff 2005
2.Encoder-Decoder
神经机器翻译（NMT）语料库： UM-Corpus是由自然语言处理与中葡机器翻译实验室整理的语料，大约200万英中对齐语料，涵盖教育、法律、微博、新闻、科学、演讲、字幕和论文等8个主题。
所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。
使用了两个RNN网络来完成机器翻译。第一个RNN网络把一串符号序列编码成一个固定长度的向量表示，第二个RNN网络把这个固定长度的向量解码成目标符号序列。通过联合训练这两个RNN网络，使得对于输入序列，得到输出序列的条件概率最大化。
Attention机制
使得经过Encoder生成的中间向量包含了位置信息，在Decoder过程中处理不同输出序列时，不同位置的输入分量所占的权重不同，距离越近的元素权重越大，也就是所谓的注意力（Attention）越高。
通过这种方式，使得距离某个单词距离近的单词影响力高于距离远的单词的影响力，从而解决了这个问题。如将“Tom Chase Jerry”翻译成“汤姆追逐杰瑞”，在翻译“杰瑞”时，“Jerry”起到的作用肯定要比“Tom”“Chase”都要高。
在这里插入图片描述