Deep contextualized word representations 论文研读笔记

最新推荐文章于 2023-05-31 22:56:44 发布

Muse327

最新推荐文章于 2023-05-31 22:56:44 发布

阅读量180

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_36680155/article/details/93368617

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Deep contextualized word representations 论文研读笔记

Motivation

一个好的词向量模型应能够：

反映出语义和语法的复杂特征
反映出不同上下文

多层LSTM的好处：

可以刻画不同的语义信息，不同的输出适用于不同的任务。higher-level LSTM可以捕捉上下文独立的语义信息，适合做有监督的词义消歧任务；lower-level LSTM可以捕捉句法信息，适合做词性标注。

这篇文章主要是用pretrained bidirectional language model来学习你所需任务中的词向量，这样做的好处是现在所用的词向量是有你任务中语料的上下文信息的。拿word2vec来说，原来的词向量都是在特定语料上直接训练的，你要做啥任务就直接把词向量搬过来做任务了，最多训练的时候fine-tune一下，基本很少训练，也学不到特定环境中的语义信息，特别是这篇文章中指出的一词多义。因此就有了ELMo(这个小名比较好记，也比较形象)。

ELMo: Embeddings from Language Models

ELMo word representations are functions of the entire input sentence.

Bidirectional language models

给定一个句子 $t_1,t_2,\cdots,t_N$ ，前向语言模型：
$p(t_1,t_2,\cdots,t_N)=\prod_{k=1}^{N}p(t_k|(t_1,t_2,\cdots,t_{k-1})$
$x_k^{LM}$ ：上角标LM说明是language model， $k$ 表示是第 $k$ 个词，结合一下就是第 $k$ 个词在language model里的表示。通过token embeddings或者CNN over characters获得。

$\overrightarrow{h}_{k,j}^{LM}$ ： $j$ 表示LSTM layers的第 $j$ 层。 $\overrightarrow{h}_{k,N}^{LM}$ 即顶层的输出，输入到softmax layer里就可以用来预测 $t_{k+1}$ .

类似地，后向语言模型：
$p(t_1,t_2,\cdots,t_N)=\prod_{k=1}^{N}p(t_k|(t_{k+1},t_{k+2},\cdots,t_{N})$
biLM是前向和后向语言模型的结合，公式是最大化前向和后向对数似然函数：
$\sum_{k=1}^N(\log p(t_k|(t_1,t_2,\cdots,t_{k-1};\Theta_x,\overrightarrow{\Theta}_{LSTM},\Theta_s)+\log p(t_k|(t_{k+1},t_{k+2},\cdots,t_{N};\Theta_x,\overleftarrow{\Theta}_{LSTM},\Theta_s))$
其中 $\Theta_x$ 是token representation的参数， $\Theta_s$ 是softmax layer的参数， $\overrightarrow{\Theta}_{LSTM}$ 和 $\overleftarrow{\Theta}_{LSTM}$ 分别是前向和后向模型的参数。前向和后向参数是部分共享，不是完全独立的。

ELMo

实验结果

创新点

个人点评

Muse327

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep contextualized word representations 论文研读笔记

Deep contextualized word representations 论文研读笔记Motivation一个好的词向量模型应能够：反映出语义和语法的复杂特征反映出不同上下文多层LSTM的好处：可以刻画不同的语义信息，不同的输出适用于不同的任务。higher-level LSTM可以捕捉上下文独立的语义信息，适合做有监督的词义消歧任务；lower-level LSTM可...
复制链接

扫一扫

专栏目录