TBPTT算法——Truncated Backpropagation Through Time

最新推荐文章于 2022-11-24 16:30:03 发布

Answerlzd

最新推荐文章于 2022-11-24 16:30:03 发布

阅读量3.4k

点赞数 2

分类专栏：自然语言处理文章标签： TBPTT 截断的BPTT

本文链接：https://blog.csdn.net/answer3664/article/details/101059171

版权

22 篇文章 2 订阅

订阅专栏

在训练循环神经网络RNN中，往往使用BPTT（Backpropagation Through Time）更新参数。关于BPTT的详细原理可以参考https://www.cntofu.com/book/85/dl/rnn/bptt.md

然而使用BPTT，对于单个参数的更新可能会带来很大的开销。例如对长度为1000的输入序列进行反向传播，其代价相当于1000层的神经网络进行前向后向传播。有两个方法对付这种庞大的开销问题：

一种简单的解决方法是：将长度为1000的序列分成50个长度为20的序列，再对这20个序列进行单独训练。这种方法虽然可行，但是它忽略了每个拆分序列之间的依赖关系。
TBPTT：TBPTT和上面的方法类似。对于一个目标序列，每次处理一个时间步（timestep）,当处理到k1个时间步时，使用BPTT后向传播k2个时间步。如果 k2 比较小，那么其计算开销就会降低。这样，它的每一个隐层状态可能经过多次时间步迭代计算产生的，也包含了更多更长的过去信息。在一定程度上，避免了上面方法中无法获取截断时间步之外信息的问题。

TBPTT需要考虑两个参数：

这里，n代表序列的总长度。

参考资料：

关注