Self-Attention:
可将self-Attention layer 可以看成一个黑盒子。每一个b1,b2,……可以看到a1,a2,…….并且可以实现并行化。
https://arxiv.org/abs/1706.03762 类似百度文库的网站,免费下载文档
可将self-Attention layer 可以看成一个黑盒子。每一个b1,b2,……可以看到a1,a2,…….并且可以实现并行化。
https://arxiv.org/abs/1706.03762 类似百度文库的网站,免费下载文档