李宏毅-Transformer&Meta-Learning

Self-Attention Layer: 能实现和RNN相同的效果
在这里插入图片描述
attention:吃query+key,输出一个分数(衡量他两的匹配度,相似度)。再加权和
李宏毅-Transformer-PPT
怎样理解‘可并行’:向量到矩阵
在这里插入图片描述
Multi-head Self-attention: 不同head关注的特征不同。和CNN多个filter的思想同。
Self-attention的缺点:没有考虑输入sequence的顺序,邻居和天涯是相同的。
在这里插入图片描述
W^P是参数,但是通常是…

Transformer:

Add & Norm: 将Multi-head Self-attention的输入和输出相加,然后做Layer Normalization

BN: 同一个batch不同data同样的dimension做。向量之间
LN:不需要考虑batch。各个不同dimension mean为0,var为1。向量内部。常和RNN大牌
在这里插入图片描述

在这里插入图片描述
有了transformer可以硬train生成一个超级长的序列,如维基百科上的文章

在这里插入图片描述
在这里插入图片描述
下面自监督学习不需要标签,但是效果更好
multi-task learning:把好多资料(训练数据集)合到一起,共同训练一个任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值