李宏毅2020机器学习深度学习：ELMO, BERT,GPT

最新推荐文章于 2024-04-16 10:19:02 发布

梆子井欢喜坨

最新推荐文章于 2024-04-16 10:19:02 发布

阅读量472

点赞数 1

分类专栏： # 李宏毅深度学习2020 文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_39610915/article/details/114952355

版权

李宏毅深度学习2020 专栏收录该内容

14 篇文章 18 订阅

订阅专栏

由Contextualized Word Embedding引入

本篇应该与之前的笔记：Word Embedding配合使用。

在Word Embedding这篇笔记中，是要求同一个单词（one-hot编码）在不同位置输入，要得到同样的词向量。即不管对应的 word 出现在哪个句子中的哪个位置, 它在向量空间中的 representations 不变。
（In typical word embedding, each word type has an embedding）
在这里插入图片描述

但考虑到同一个词汇，在不同的语境可能有不同的意思。
如上图中的“bank”，出现在不同的句子中，上下文不同，词义也不同。

说明一下，这里的word token 就是 tokenization 得到的一个个 token; 而 word type, 就是字面的意思, 可以理解成一个单词的拼写形式。
'bank’这个词是一个word type，同时它是一个多义词，当在具体一句话被切出来时，得到的就是一个与上下文相关的word token。

因此希望不同意思的token，也会有不同的embedding。
通过Contextualized Word Embedding解决这一问题。
Each word token has its own embedding (even though it has the same word type)
The embeddings of word tokens also depend on its context.

在这里插入图片描述
上下文越相近的token，就有越相近的embedding。

参考论文：Contextual Word Representations: A Contextual Introduction
注1：tokenization，也叫word segmentation,是一种操作，它按照特定需求，把文本切分成一个字符串序列(其元素一般称为token，或者叫词语)。
注2：原论文注释参考
注3：tokenization的粒度有三种，字粒度、词粒度和子词粒度。

那么，怎么实现Contextualized Word Embedding呢？

Embeddings from Language Model(ELMO)

原论文链接

ELMO是一个RNN-based language models。

ELMO使用大量的句子进行训练，数据不需要标注。

所做的事情就是预测下一个token是什么。

RNN的hidden layer就是token embedding（它与之前的输入有关）

为什么得到的是Contextualized Word Embedding呢？
比如对于同一个词语，“退了”
经过“ $< B O S >$ , $高烧$ ， $退了$ ” 和 “ $< B O S >$ , $臣$ ， $退了$ ” 生成的hidden layer是不同的。

为了得到“退了”这个token的embedding，可以把前向和后向RNN得到的hidden layer concat起来
在这里插入图片描述
当RNN “deep”起来的时候，到底用那一层的呢？同一个词汇用哪一层的embedding呢？

ELMO 进行了线性加权求和（下图中假设有两层网络）

加权系数如何得到？
根据不同的下游任务学习得到。
原论文中，最终的embedding有三个来源：