
【论文小记】Griffin
右半边是循环网络结构。Temporal Conv1D 和 RG-LRU 都是RNN结构。这是比较常见的MLP实现形式。- (实验表明)在训练token数较少的情况下能获得不错的效果;基础想法:用RNN类的结构替换Transformer结构。的代码,但与这里介绍的Griffin相通)具体形式在文章内没详细介绍。的计算形式为(文章附录有说明)左半边与(b)相同,组成门。表达形式,非严谨,仅供参考。带有门结构的循环网络模块。这不是我们熟悉的一维卷积。文章正文提到的实现为,这是TCN, 可参考。





