deep learning 07. ELMo

最新推荐文章于 2024-06-20 02:29:46 发布

adowu

最新推荐文章于 2024-06-20 02:29:46 发布

阅读量205

点赞数

分类专栏： Models 文章标签： elmo

本文链接：https://blog.csdn.net/WUUUSHAO/article/details/88422117

版权

Models 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

开始的话：
从基础做起，不断学习，坚持不懈，加油。
一位爱生活爱技术来自火星的程序汪

讲完 $w o r d 2 v e c$ ，接下来我们就要讲讲 $E L M o$ 了，来自论文:Deep contextualized word representations，而 $E L M o$ 是表示 $E m b e d d i n g s$ $f r o m$ $L a n g u a g e$ $M o d e l s$ 的意思。

$S t e p$ $1 .$ $t r a i n$

如下图所示：

在训练过程中， $E L M o$ 有两个输入，一个正向的 $i d s$ ，以及一个反向的 $i d s$ _ $r e v e r s e$ 。需要特别注意的是：这两个 $i d$ 是 没有任何关系 的，也就是说不是同一个输入文本的正向 $i d$ 和反向 $i d$ 。
训练阶段也比较简单：

对于 $i d s$ ，扔进一个如上图所示的一个 $m u l t i R N N C e l l$ ，如果对这个结构不是很了解，请看我之前的 $b l o g$ 。
对于 $i d s$ _ $r e v e r s e$ ，同样扔进一个 $m u l t i R N N C e l l$ 。
拿到这两个 $m u l t i R N N C e l l$ 的输出，分别进行 $l o s s$ 计算（ $s a m p l e d$ _ $s o f t m a x$ _ $l o s s$ ，然后求和求平均得到最终的loss。

当训练结束后，会得到几个很重要的文件，这些文件就是我们在 $d o w n$ $s t r e a m$ $t a s k$ 中需要用的：

$o p t i o n s . j s o n$ 训练的参数文件
$v o c a b$ _ $e m b e d d i n g . h d f 5$ 训练完语言模型之后的 $E m b e d d i n g s$
$w e i g h t s . h d f 5$ 训练完之后各层的参数
$v o c a b . t x t$ 词表文件

$S t e p$ $2 .$ $p r e d i c t$

在预测阶段，对于一个输入的 $i d s$ 会进行如下操作：

在 $f o r w a r d$ 中输入 $i d s$ ,有两层 $L S T M C e l l$ ，保存两个结果；
在 $b a c k w a r d$ 中输入 $i d s$ _ $r e v e r s e$ ,有两层 $L S T M C e l l$ ，保存两个结果；
这样我们就能拿到三个结果：
- 由 $e m b e d d i n g s$ 文件得到当前输入的 $e m b e d d i n g s$ 第一层
- 由 $f o r w a r d$ 和 $b a c k w a r d$ 中的第一个输出的 $c o n c a t$ 结果 第二层
- 由 $f o r w a r d$ 和 $b a c k w a r d$ 中的第二个输出的 $c o n c a t$ 结果 第三层
对上述每一层，设置了可训练的权重参数 $W$ 和统一 $s c a l e$ 参数 $g a m m a$ 。