从词向量到Bert——简单作业题+讲解

最新推荐文章于 2022-11-08 18:15:25 发布

flying_1314

最新推荐文章于 2022-11-08 18:15:25 发布

阅读量1.8k

点赞数 2

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/flying_1314/article/details/106526643

版权

NLP 专栏收录该内容

27 篇文章 9 订阅

订阅专栏

习题

1．关于Word2vec，下列哪些说法是正确的（）
(A) Word2vec是有监督学习
(B)Word2vec利用当前特征词的上下文信息实现词向量编码，是语言模型的副产品
(C)Word2vec不能够表示词汇之间的语义相关性
(D)Word2vec是一个三层的深度神经网络模型

2.Transformer 结构中不包括以下哪个内容？
（A） Encoder-Decoder
（B） Self-Attention
（C） Add & Norm
（D） Single-Head Attention

3.Transformer 的优点不包括以下哪点？
(A) 每层都计算复杂度
(B) 用最小的序列化运算来测量可以被并行化的计算。
(C) 从1到n逐个进行计算一个序列长度为n的信息要经过的路径长度
(D) Self-attention可以比RNN更好地解决长时依赖问题

4. Bert模型输入不包括以下哪些内容
(A) 文本向量
(B) 位置向量
(C) 字向量
(D) 时间

5. 不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？

答案及解析

1.答案：B 解析：A，word2vec利用的是中心词预测周围词或者周围词预测中心词的方法，可以看作是自监督，是直接从一段文本构造而来，原始数据是没有对应的标签的。C，由于语义相近的词通常具有类似的上下文，所以word2vec是可以学习到语义相关性的。D，word2vec包括一个embedding层，然后就是输出层，不算做深度神经网络

2.答案：D

3.答案：C 解析：A选项每层的计算复杂度为O(n2*d)，n 代表序列长度，d代表embedding维度，而RNN的复杂度为O(n*d2)，通常d大于n所以通常transformer每层的计算复杂度小于RNN。B，由于序列中每个token之间的计算并没有时间先后的依赖所以可并行。D，self-attention两个不连续的token之间可以直接通过query和key产生交互，并不需要像RNN那样只能一步步传递过来，所以可以更好地解决长时依赖问题。C选项的解释应该是说，比如在 RNN 中，两个 token 之间的交互需要经过序列一步步过来，而在 self-attention 中两个位置的token直接通过点积计算，这个信息的传递路径就很短

4.答案：D 解析：BERT的输入包括三种embedding，token embedding、position embedding、segment embedding，时间步的信息由position embedding控制。

5.答案：解析：不乘以QKV参数那么QKV全部等于输入的embedding，整个模型的参数基本只有embedding和Position-wise Feed-Forward部分的参数，模型表达能力大大下降，结果可能会比较差;具体来说，qk一致会使得自身的比重非常大，当前词很难较好的注意到其他词，对于词表征的学习产生不利影响。

本部分习题都是参考开课吧NLP训练营的，欢迎大家讨论哟