ElMo模型

最新推荐文章于 2024-03-22 11:08:20 发布

Gavin_ggl

最新推荐文章于 2024-03-22 11:08:20 发布

阅读量859

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_41250910/article/details/104333876

版权

10 篇文章 3 订阅

订阅专栏

前言

说起Elmo模型，我们要从自然语言理解（NLU）说起，如果我们想通过计算机来处理自然语言（音频，文字等），首先我们需要将自然语言转换成计算机可以处理的形式，NLU就是量化自然语言。我们直接这里针对文字这种语言形式，以量化的方式表示一个单词的方式。

如果只有一句话，“我喜欢自然语言”’,我们可以用one-hot Representiation的方式：
我：[1,0,0,0]
喜欢：[0,1,0,0]
自然：[0,0,1,0]
语言：[0,0,0,1]

这是我们最初量化文字的方式，虽然很简单，但很有意义。随着技术的发展，这种方式已经不能满足人们的需求，它自身具有一些不足：

Word2Vec词向量的出现，我觉得是推动NLP发展的很大一个突破，具有很多one-hot Representation不具备的优点：

注：
可以使用sklearn中封装的T-SNE（降维算法）方法对词向量可视化（二维）。

CBOW、SKIP-GRAM、NNLM、GLOVE、MF、ELMO、LDA和BERT等。这里我们着重介绍下Elmo.

Elmo的核心思想：使用两层BiLSTM模型来学习文本深度学习层次表示，最后针对每个单词输出三个向量，针对与下游任务可以使用加权的方式来表征文本，一定程度上解决了一词多义的问题。

在这里插入图片描述

图片来自：论文<Improving a Sentiment Analyzer using ELMo — Word Embeddings on Steroids>

关注

专栏目录