1. QKV代表什么?
参考https://zhuanlan.zhihu.com/p/441459022中的解释,我自己的理解是,将self-attention过程对比信息检索过程,以搜索<蓝色毛衣的价格>为例:
Query:用于查询的信息,表示<原始vector>希望得到的信息类型,或希望关注的信息类型。(搜索栏中输入的信息,如<蓝色毛衣的价格>,表示我们想要搜索到与蓝色毛衣价格相关的信息)
Key:表示自己包含什么信息,即<原始vector>包含的信息类型,如名称、情绪、数字等,注意不是信息本身,只是信息的类型。(浏览器返回的信息的类型,如蓝色毛衣的价格、款式等)。
Value:信息本身,即<原始vector>的具体信息内容,如名字是dog、情绪是positive、数字是10。(浏览器返回的信息内容,如蓝色毛衣的价格本身,即100,当然,单位<元>也是<价格>希望关注的信息)
2. 学习链接
[1] transformer入门:http://jalammar.github.io/illustrated-transformer/
[2] transformer编程细节:http://nlp.seas.harvard.edu/2018/04/03/attention.html
[3] Beam Search:https://zhuanlan.zhihu.com/p/114669778
[4] 输入格式及mask介绍:https://blog.csdn.net/wl1780852311/article/details/121033915