说句实话,今天看了一天paper,也不知道看出来了个鬼。
一直想研究在Transformer架构上怎么能搞点trick出来。看了Switch Transformer,得到概念基本也就是那些。目前看来要是再去看的话,恐怕就只能看CV了。
一堆其他设计当然也可以尝试,最近居然还出现了一个Transformer-in-Transformer,不过似乎还是CV。
至于RL,基本上各种attention网上怼。我还是没太明白这里面的一些基本脉络。
说句实话,今天看了一天paper,也不知道看出来了个鬼。
一直想研究在Transformer架构上怎么能搞点trick出来。看了Switch Transformer,得到概念基本也就是那些。目前看来要是再去看的话,恐怕就只能看CV了。
一堆其他设计当然也可以尝试,最近居然还出现了一个Transformer-in-Transformer,不过似乎还是CV。
至于RL,基本上各种attention网上怼。我还是没太明白这里面的一些基本脉络。