2023.2.12第15次周报-CSDN博客

本文链接：https://blog.csdn.net/qmdx_98/article/details/128996029

摘要

This week, I learned more about the attention mechanism and some differences between Encoder-Decoder and attention model, meanwhile, I learned the advantages of soft attention and self attention, soft attention is more efficient and more interpretable than traditional hard attention mechanism, while self attention is more generalizable and efficient. In addition, I read a paper on effective estimation based on word representation in vector space, and understood the core of the paper and some innovations.
本周，我进一步学习了attention机制，了解了Encoder-Decoder与attention model的一些区别，同时，我学习了soft attention与self attention的优点，soft attention 相比传统的硬注意力机制更高效以及可解释性更强，而self attention则更具泛化能力以及更高效；另外，我阅读了一篇基于向量空间中词表示的有效估计论文，了解了文章的核心以及一些创新点。

深度学习

1、Encoder-Decoder与attention model区别

Encoder-Decoder
在这里插入图片描述
Encoder-Decoder框架可以直观地去理解：把它看作由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。（对于句子对<X,Y>：<X,Y>对很通用，X是一个问句，Y是答案；X是一个句子，Y是抽取的关系三元组；X是汉语句子，Y是汉语句子的英文翻译。等等），我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。
Encoder-Decoder模型是没有体现出“注意力模型”的。
在这里插入图片描述
如上图句子Y中每个单词的生成过程，f是decoder的非线性变换函数。从这里可以看出，在生成目标句子的单词时，不论生成y1、y2或y3，他们使用的句子X的语义编码C都是一样的，而语义编码C是由句子X的每个单词经过Encoder 编码产生的，这意味着不论是生成哪个单词，y1,y2还是y3，其实句子X中任意单词对生成某个目标单词yi来说影响力都是相同的。
attention 模型
以翻译一个英语句子举例：
输入X：Tom chase Jerry。理想输出：汤姆追逐杰瑞。
比如给出类似下面一个概率分布值：
（Tom,0.3）（Chase,0.2）（Jerry,0.5）
每个英文单词的概率代表了翻译当前单词“杰瑞”时，注意力分配模型分配给不同英文单词的注意力大小。这对于正确翻译目标语单词肯定是有帮助的，因为引入了新的信息。同理，目标句子中的每个单词都应该学会其对应的源语句子中单词的注意力分配概率信息。这意味着在生成每个单词Yi的时候，原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。
在这里插入图片描述

2、Soft Attention

这是比较常见的Attention方式，对所有key求权重概率，每个key都有一个对应的权重，是一种全局的计算方式（也可以叫Global Attention）。这种方式比较理性，参考了所有key的内容，再进行加权。但是计算量可能会比较大一些。
所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。即上图中的ci是对Encoder中每一个单词都要计算一个注意力概率分布，然后加权得到的。如下图所示：
在这里插入图片描述

3、self attention

自注意力机制（Self-attention）通常也不会使用其他额外的信息，但是它能使用自注意力关注本身进而从句子中抽取相关信息。自注意力又称作内部注意力，它在很多任务上都有十分出色的表现，比如阅读理解、文本继承、自动文本摘要。

优势

可以处理长序列：自注意力允许网络学习整个序列的全局信息，这对于处理较长的序列是非常有用的。
更好的泛化能力：自注意力允许网络对整个输入信息进行编码，因此可以在没有明确的顺序信息的情况下更好地泛化。
简化网络结构：自注意力可以代替复杂的网络结构，使得网络更容易训练和维护。
更高效：自注意力可以节省计算资源，因为它不需要明确的矩阵乘法。

文献阅读

论文：Efficient Estimation of Word Representations in Vector Space

1、摘要核心

提出了两种新颖的模型结构用来计算词向量
采用一种词相似度的任务来评估对比词向量质量
大量降低模型计算量可以提升词向量质量
进一步，在语义和句法任务上，词向量是当前最好的效果

2、介绍

传统NLP把词当成最小单元处理，并且能够在大语料上得到很好的结果，其中一个例子是N-grams模型
很多自然语言处理任务只能提供很小的语料，如语音识别、机器翻译，所以
简单地扩大数据规模来提升简单模型的表现在这些任务不再适用，所以我们必须寻找更加先进的模型
分布式表示可以在大语料上训练得到很好的语言模型，并且能过超过N-grams模型,这是一个很好的可以作为改进的技术

3、word2vec

Word2vec基本思想:句子中相近的词之间是有联系的，比如今天后面经常出现土午下午和晚上。所以Word2vec的基本思想就是用词来预测词，skip-gram使用中心词预测周围词，cbow使用周围词预测中心词。
评价方法
内部任务评价方法
（1）衡量词向量之间的相似程度
在这里插入图片描述
（2）词类比analogy

外部任务评价 ：命名实体识别、文本分类

4、模型比较

在这里插入图片描述
和其他人开源的词向量比较

5、论文总结

关键点

更简单的预测模型——word2vec
更快的分类方案——HS和NEG
创新点
使用词对的预测来替代语言模型的预测
使用HS和NEG降低分类复杂度使用subsampling加快训练
新的词对推理数据集来评估词向量的质量
启发点
大数据集上的简单模型往往强于小数据集上的复杂模型
King的词向量减去Man的词向量加上Woman的词向量和Queen的词向量最接近
我们决定设计简单的模型来训练词向量，虽然简单的模型无法像神经网络那么准确地表示数据，但是
可以在更多地数据上更快地训练
我们相信在更大的数据集上使用更大的词向量维度能够训练得到更好的词向量。

总结

本周继续学习了attention机制，了解到Encoder-Decoder模型没有体现“注意力模型”，Soft attention 相比传统的硬注意力机制更高效以及可解释性更强，而self attention则更具泛化能力以及更高效。虽然通过本周的学习，对attention有了进一步了解，但是还存在许多不明白的地方，有待进一步学习。