内涵：文本识别论文之基础构件LSTM学习

学弟

已于 2024-03-31 19:53:45 修改

阅读量819

点赞数

分类专栏： # 内涵文章标签： lstm 深度学习 blstm 文本识别 encoder

于 2022-10-15 18:05:31 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u011345885/article/details/127322733

版权

内涵专栏收录该内容

43 篇文章 1 订阅

订阅专栏

文本识别论文之基础构件解读

1. lstm

文本识别论文中经常会涉及到lstm、rnn、attention等名词，本篇文章是对这些基础构件的总结和介绍。

1. lstm

lstm构件主要从3部分进行介绍：

最小单元：lstm cell
实际使用样式一：多层多时序lstm
实际使用样式二：(双向)多层多时序lstm

1.1 lstm cell

pytorch官网关于lstm的注释，将lstm cell的过程描述为如下6个公式：

在这里插入图片描述

Fig1 LSTM cell 公式
参考网上的资源，可以绘制出对应该公式的lstm cell简图。

在这里插入图片描述

Fig2 LSTM cell 简图

这里稍做阐述：每一个lstm cell的输入有3个： $x_t$ 、 $c_{t-1}$ 、 $h_{t-1}$ ，输出有两个 $c_{t}$ 和 $h_{t}$ 。
$x_t$ 表示的是时刻 $t$ 时的数据embedding输入, $c_{t-1}$ 表示上一个时刻 $t - 1$ lstm cell的state， $h_{t-1}$ 表示上一个时刻 $t - 1$ lstm cell的hidden。显然，对于 $t = 0$ 时刻, 需要"凭空"存在一个 $h_{-1}$ 和 $c_{-1}$ ，这两个值是通过赋予一个可学习的variable来做到。

1.2 multi-layer long short-term memory

在这里插入图片描述

Fig3 MultiLayer LSTM简图(2层5时序)

>>> rnn = nn.LSTM(10, 20, 2)
>>> input = torch.randn(5, 3, 10)
>>> h0 = torch.randn(2, 3, 20)
>>> c0 = torch.randn(2, 3, 20)
>>> output, (hn, cn) = rnn(input, (h0, c0))

上述代码是pytorch官网提供的。这里阐明以下几点：

在构建lstm的时候，初始参数为输入维度10, 输出维度20和lstm层数2，而时序数并没有在lstm构建的时候传递进去。
$h 0$ 和 $c 0$ 如上所述是随机构造的一个可学习的state和hidden初始值。
当前层的 $h_t^0$ 作为下一层 $h_t^1$ 的输入的时候，并非直接透传，而是通过乘以了一个Bernoulli random variable的 $\delta_t^0$ 。