Transformer 学习笔记及学习链接推荐

1. QKV代表什么?

参考https://zhuanlan.zhihu.com/p/441459022中的解释,我自己的理解是,将self-attention过程对比信息检索过程,以搜索<蓝色毛衣的价格>为例:
Query:用于查询的信息,表示<原始vector>希望得到的信息类型,或希望关注的信息类型。(搜索栏中输入的信息,如<蓝色毛衣的价格>,表示我们想要搜索到与蓝色毛衣价格相关的信息)
Key:表示自己包含什么信息,即<原始vector>包含的信息类型,如名称、情绪、数字等,注意不是信息本身,只是信息的类型。(浏览器返回的信息的类型,如蓝色毛衣的价格、款式等)。
Value:信息本身,即<原始vector>的具体信息内容,如名字是dog、情绪是positive、数字是10。(浏览器返回的信息内容,如蓝色毛衣的价格本身,即100,当然,单位<元>也是<价格>希望关注的信息)

2. 学习链接

[1] transformer入门:http://jalammar.github.io/illustrated-transformer/
[2] transformer编程细节:http://nlp.seas.harvard.edu/2018/04/03/attention.html
[3] Beam Search:https://zhuanlan.zhihu.com/p/114669778
[4] 输入格式及mask介绍:https://blog.csdn.net/wl1780852311/article/details/121033915

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值