Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce组会PPT记录

在这里插入图片描述
注意力机制就是在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤。比如我们看到了这张图,我们会首先看是什么车,这就是个不随意线索,没有随着我们的意识,是下意识的行为,然后我们发现车之后,才会去想这个车在什么环境中,这就是个随意线索,是我们有意识去主导的事情,就是我们有意识的去观测我们想要的东西。
在这里插入图片描述

在注意力机制中,我们把随意线索称为查询,query,简称为Q,不随意线索为键,Key,简称为K,然后每一个键都对应一个值成对出现,值,value,简称为V。我们希望通过注意力机制来有偏向性的选择值。
在这里插入图片描述
然后经典的里程碑式的模型,transformer,是论文Attention Is ALL You Need的模型,他的原理中自注意力如图所示,首先有T个token,被嵌入到潜空间,然后设置三个矩阵来对嵌入的向量进行空间变换,生成Q,K,V,然后Q与K进行点成,然后除以根号下D,为了减小过大方差。然后我们发现他这里使用的是层归一化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值