Compressive transformer for long-range sequence modelling
问题:Transformer关注每一个时间步的computation cost以及保存大量记忆的storage cost。---->以TransformerXL(扔掉比较旧的记忆)为基点,将旧记忆进行压缩。
方法:![在这里插入图片描述](https://img-blog.csdnimg.cn/20200301180524557.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1hpYW9feWFubGluZw==,size_16,color_FFFFFF,t_70)
几个难理解的点:
(1)额外设计的cost:
attention reconstruction cost:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200301181831149.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1hpYW9feWFubGluZw==,size_16,color_FFFFFF,t_70)
计算loss时要清除掉这个loss流往主干网络的梯度,只更新记忆压缩函数里的参数,设计这个loss的Motivation在于要使hidden states