Compressive transformer for long-range sequence modelling
问题:Transformer关注每一个时间步的computation cost以及保存大量记忆的storage cost。---->以TransformerXL(扔掉比较旧的记忆)为基点,将旧记忆进行压缩。
方法:
几个难理解的点:
(1)额外设计的cost:
attention reconstruction cost:
计算loss时要清除掉这个loss流往主干网络的梯度,只更新记忆压缩函数里的参数,设计这个loss的Motivation在于要使hidden states从原来记忆中查询到的结果尽量相同,以达到压缩记忆占较小的内存同时不影响效果。
(2)
原因可能是:训练时输入的句子不一定是连续的(提升训练效率),但测试的时候输入的句子一