Transformer模型就是一个巨大的连续数据统计库

Transformer模型就是一个巨大的统计库

如果embedding不变数据一定会收敛于某个分类中,也就是attion的参数会趋向于一个极限。

不受数据位置的影响,受关键连续数据的影响,可以捕获关键连续数据,这是提取了数据的特性。

所以transformer训练后只能做微调。

验证如下:
o u t p u t , a t t n = A t t e n t i o n ( E ( X ) , W 1 ) a r g m a x ( s i n ( a t t n ) , W 2 ) ⟶ α output,attn = Attention(E(X),W_1) \\ argmax(sin(attn), W_2) \longrightarrow \alpha output,attn=Attention(E(X),W1)argmax(sin(attn),W2)α

无论参数如何变化,只要输入不变都会趋向于一个区间,具体原理不知道

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值