Transformer模型就是一个巨大的连续数据统计库

最新推荐文章于 2024-07-13 21:18:24 发布

cjx__

最新推荐文章于 2024-07-13 21:18:24 发布

阅读量392

点赞数 7

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjx__/article/details/135053160

版权

Transformer模型就是一个巨大的统计库

如果embedding不变数据一定会收敛于某个分类中，也就是attion的参数会趋向于一个极限。

不受数据位置的影响，受关键连续数据的影响，可以捕获关键连续数据，这是提取了数据的特性。

所以transformer训练后只能做微调。

验证如下:
$Attention(E(X),W_1) \\ argmax(sin(attn), W_2) \longrightarrow \alpha$

无论参数如何变化，只要输入不变都会趋向于一个区间，具体原理不知道

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型就是一个巨大的连续数据统计库

如果embedding不变数据一定会收敛于某个分类中，也就是attion的参数会趋向于一个极限。不受数据位置的影响，受关键连续数据的影响，可以捕获关键连续数据，这是提取了数据的特性。无论参数如何变化，只要输入不变都会趋向于一个区间，具体原理不知道。Transformer模型就是一个巨大的统计库。所以transformer训练后只能做微调。
复制链接

扫一扫

cjx__ CSDN认证博客专家 CSDN认证企业博客

码龄13年

19: 原创

21万+: 周排名

18万+: 总排名

1万+: 访问

: 等级

299: 积分

7: 粉丝

11: 获赞

5: 评论

31: 收藏

私信

关注

热门文章

分类专栏

最新评论

athas排查k8s的skywalking问题
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
简易GPT模型
CSDN-Ada助手: 恭喜你撰写了第20篇博客！标题中的“简易GPT模型”听起来非常有趣。你的持续创作精神令人钦佩。我鼓励你继续深入探索GPT模型的细节，并尝试通过添加更多实例和案例研究来丰富你的内容。此外，我希望你能在未来的博客中尝试扩展到其他相关主题，以便为读者提供更多有价值的知识。期待你下一步的创作！
系统性能及并发数的一些计算公式
ctotalk: 感谢分享，学以致用。
java连接要searchguard认证的es
cjx__ 回复司马缸砸缸了: 映射不用的目录就可以了。
java连接要searchguard认证的es
司马缸砸缸了: 每个环境的证书不一样怎么搞呢。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。