1.当N元文法中N值变化时,会给模型带来哪些影响,请分析。
答:句子的联合概率分布表示为条件概率乘积的形式,第 n 个词出现的概率将由第 1,…,n−1 个词共同决定,可见历史序列越长,其发生概率将越小,即n 越大模型越准确,但模型需要的参数变多,需要的训练语料变多。
2.相较于向量语义,N元文法有哪些劣势,请分析。
答:上下文长度增加,数量会指数增加,难以有效获取上下文关系。
n的值大了,难以处理,训练速度很慢。
n元语法比较依赖语料库。
3.使用平滑有哪些优势?在使用平滑的朴素贝叶斯模型中是如何处理测试集中的未知词的?
优势:对于一些没见过的句子使其概率不为0,方便计算困惑度
对于测试集中的未知词的概率对其做平滑处理:
其中m为特征词向量的个数,α为平滑系数
当α=1时,称为拉普拉斯平滑
4.在向量语义章节中,文本向量方法有哪些?
(1)转换成one-hot编码
(2)TF-IDF
(3)Word2vec
5.神经网络的权重是如何更新的,从模型初始运行开始描述。
(1)对网络进行权值的初始化
(2)输入数据向前传播,求出隐藏层、输出层各单元的输出
(3)求目标值和实际输出的误差偏量
(4)当误差大于我们的期望值时,将误差传回网络中,计算各层的误差
(5)求出误差梯度,并根据其更新权值,然后再进行第(2)步直到误差小于等于我们的期望时,结束训练。
6.LSTM和Transformer有什么区别?请分析两者的优劣势。
区别:transformer和LSTM最大的区别就是LSTM的训练是迭代的,是一个接一下字的来,当前这个字过完LSTM单元,才可以进下一个字,而transformer的训练是并行的,就是所有字是全部同时训练的,这样就大大加快了计算效率
LSTM:
优点:改善了长程训练中存在的梯度消失和梯度爆炸的问题,具有长时记忆功能
缺点:不具备高效的并行计算能力、难以提取全局信息;通过多重循环连接传递信息会导致信息丢失;训练困难
Transformer:
优点:计算并行性好、Transformer比LSTM特征提取效果要好
缺点:局部信息的获取能力不强、不能很好地表征位置信息
7.请解释波束搜索的工作原理和过程。
原理:使用搜索树构建全局概率分布空间,可以探索所有可能的输出时,选择每一步最优的K个解
过程:
(1)解码第一步,用softmax为词汇表中每一个单词分配概率,选择概率最高的k个单词作为输出,这k个输出称为搜索边界;
(2)在后续的步骤中,k个假设中的每一个假设被传送至不同的解码器中,并使用下一个可能的token将该假设延伸扩展;
(3)在序列输出的过程中,以结束符</s>为终点,生成一个完整的候选输出, 此时需要将该完整假设从边界移除,波束的大小从k开始不断地减1,直到等于0;
(4)拼接整个路径上概率最大的所有结果
8.动态上下文向量在(1)带RNN的编解码器和(2)带Transformer的编码器中分别是如何实现的?
(1)带RNN的编解码器中,
先通过点积运算计算编码器中的每一个隐藏状态与解码器中的前一个隐藏状态之间的相关性。
然后用softmax对所有计算获得的点积结果进行归一化处理,从而获取权重向量 。
最后将权重向量中的每一个值和编码器中的每一个隐藏状态做点积并求和
每一次生成新的解码器隐藏状态时,都会重新计算一次权重向量 ,从而生成新的上下文向量c ,所以是动态的
(2)带Transformer的编码器中,
Q矩阵中只有当前已生成的(已翻译的)文本的信息,通过与编码器提供的K做掩码多头自注意力生成权重矩阵C,然后和V矩阵做点积生成上下文。
因为进行了掩码操作,每次生成的权重矩阵都不一样,所以会产生新的上下文向量C ,所以是动态的