ELMO

最新推荐文章于 2024-05-25 09:37:18 发布

笑给我看

最新推荐文章于 2024-05-25 09:37:18 发布

阅读量227

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_41610436/article/details/89042991

版权

nlp 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

ELMO学习摘要

Jay Alammar的博客

论文地址

如何将ELMO词向量用于中文

迁移学习NLP：BERT、ELMo等直观图解

ELMo算法原理解析

讲的比较好的ELMO博客

嵌入（Embedding）的新时代

词嵌入一直是影响NLP模型处理语言的主要力量。Word2Vec和Glove等方法已被广泛用于此类任务。Word2Vec让我们可以使用一个向量（一个数字列表）以一种捕获语义相关关系的方式正确表示单词（例如，判断单词是相似的，判断还是在它们之间具有的关系，如“开罗”和“埃及”之间的关系）以及句法或基于语法的关系（例如“was”和“is”之间的关系）。

该领域的研究者很快意识到，使用经过大量文本数据预训练的嵌入技术，而不将模型与经常是小型数据集的模型一起训练，这是一个好主意。因此，你可以下载Word2Vec或GloVe预训练生成的单词列表及其嵌入。

ELMO语境问题

如果我们使用GloVe，那么“stick”这个词将由一个向量表示，无论上下文是什么。但是，许多NLP研究人员（Peters等人，2017年，McCann等人，2017年及Peters等人，2018年在ELMo论文中）发现“stick”有多个含义，这取决于它的使用位置。为什么不根据它所使用的上下文给它一个嵌入呢？这样既捕获该上下文中的单词含义以及其他上下文信息。因此，语境化嵌入词诞生了！

ELMo不是对每个单词使用固定嵌入，而是在为其中的每个单词分配嵌入之前查看整个句子，它使用在特定任务上训练的双向LSTM来创建这些嵌入。
ELMo在NLP背景下向预训练迈出了重要一步。ELMo LSTM将使用我们数据集语言中的大量数据集进行训练，然后我们可以将其用作需要处理语言的其他模型中的组件。

ELMO的与众不同在哪里

ELMo通过训练来预测单词序列中的下一个单词，这是一项称为获得语言理解语言建模的任务。这很方便，因为我们拥有大量的文本数据，这样的模型可以在不需要标签的情况下学习。

ELMo预训练过程中的一个过程：给定输入，预测下一个最可能的单词。在诸如“hang”之类的单词出现之后，它将为诸如“out”之类的单词赋予比“camera”更高的概率。

每个展开的LSTM步骤的隐藏状态都是从ELMo的头部后面突出。在完成预训练之后，这些在嵌入式proecss可以派上用场。ELMo实际上更进一步，因为双向LSTM，这意味着它的语言模型不仅具有下一个词的感觉，而且还有前一个词。

ELMo通过以某种方式将隐藏状态（和初始嵌入）组合在一起来提出情境化嵌入（连接后加权求和）。可见 ELMo的线性组合部分

ELMO假设前提一个词的词向量不是固定的，而word2vec和Glove词向量是静态的，在一词多义方面ELMO可以提现他的优势
word2vec是以滑窗的方式进行词向量的训练，学习的范围太小，而ELMO学习语言模型的时候在是在整个语料库中学习的，通过语言模型学习的词向量相当于基于整个语料库学习的词向量，表示一个词更加的准确
ELMO在训练语言模型的时候可以运用非任务的语料，学习好之后可以迁移到任务中

笑给我看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ELMO

ELMOJay Alammar大佬的博客迁移学习NLP：BERT、ELMo等直观图解嵌入（Embedding）的新时代词嵌入一直是影响NLP模型处理语言的主要力量。Word2Vec和Glove等方法已被广泛用于此类任务。Word2Vec让我们可以使用一个向量（一个数字列表）以一种捕获语义相关关系的方式正确表示单词（例如，判断单词是相似的，判断还是在它们之间具有的关系，如“开罗”和“埃及”...
复制链接

扫一扫