内容有点长,应该是史上最详细、最有说服力的一篇文章。因为几乎所有的细节在逻辑上都串通了。后面attention的计算流程,我使用的例子的计算结果,和调用pytorch中的attention模块的计算结果是一致的,所以是最有说服力的。比那些云里雾里的流程图更清晰。
如果你是小白,最好从头看,前面写的都是原理。如果你有点基础,就从文章中间开始看,后半部分是注意力模块的计算过程的详细讲
内容有点长,应该是史上最详细、最有说服力的一篇文章。因为几乎所有的细节在逻辑上都串通了。后面attention的计算流程,我使用的例子的计算结果,和调用pytorch中的attention模块的计算结果是一致的,所以是最有说服力的。比那些云里雾里的流程图更清晰。
如果你是小白,最好从头看,前面写的都是原理。如果你有点基础,就从文章中间开始看,后半部分是注意力模块的计算过程的详细讲
659
861
2613
1030
869

被折叠的 条评论
为什么被折叠?