transformer和bert学习笔记

最新推荐文章于 2024-01-24 01:49:29 发布

Pαssβy

最新推荐文章于 2024-01-24 01:49:29 发布

阅读量767

点赞数 5

文章标签： transformer bert 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52429123/article/details/131864794

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

学习笔记

一、transformer是什么
二、Bert是什么

一、transformer是什么

在这里插入图片描述
完整transformer的结构
transformer是经典的编码器解码器结构，对于整个结构分为四个主要部分

输入部分：transformer输入为固定长度的512(利于残差连接?大概)的向量，他除了包含词的信息还包含位置信息（positional encoding）
在这里插入图片描述
编码器部分：n个Transformer block（n=6）堆叠在一起
编码器主要是输入后进行多头注意力机制，残差连接，正则化，MLP，再残差连接正则化。
残差连接LayerNorm(x+Sublayer(x))，防止梯度消失

注意力机制，key，query，value，形象一点的理解：key相当于名字，value是分数，query表示我想看谁的分数，所以通过query去查key对应的value，获得最终的结果
在这里插入图片描述
将vkq投影后进行点乘后拼接进行输出，点乘不像相加可以有参数学习，线性投影倒是可以学习

在这里插入图片描述
解码器部分：自回归，上一时刻的输出是这一时刻的输入（相当于输入不仅是当前输入值还包含上一时刻输出值），但不应该看到下一时刻的信息，所以是masked multi-head attention

输出部分：输出就是线性层进行softmax

二、Bert是什么

bert指基于transformer的双向编码器表示
和transformer的区别：transformer使用位置编码，通过直到位置信息就知道了前文的信息，而bert认为还能直到后面的信息，他使用一个掩码的语言模型，简单来说就像是完形填空一样。

wordpiece：对于一个很少出现的词，可以把他切成一个个词根，让他变成更常见的词
在这里插入图片描述
预训练

具体而言每一个输入包含三个信息：每个词自身的embedding信息，他在哪个句子部分的信息，他所在位置的信息

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
transformer和bert学习笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。
复制链接

扫一扫

Pαssβy CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

115万+: 周排名

8万+: 总排名

4035: 访问

: 等级

196: 积分

40: 粉丝

76: 获赞

4: 评论

61: 收藏

私信

关注

热门文章

最新评论

GAMES101作业3（上），Shading
CSDN-Ada助手: 恭喜你完成了第6篇博客，“GAMES101作业3（上），Shading”！看到你持续创作并分享自己的学习心得，真的让人感到很欣慰。希望你能继续保持这样的学习热情和创作动力，不断探索更多有趣的主题，展示你的专业知识和见解。或许在下一篇博客中，可以分享一些关于光照模型或者纹理映射的内容，这也是Shading领域的重要部分之一。期待你的精彩继续！
GAMES101作业0
CSDN-Ada助手: 太棒了！看到你在博客上分享了关于GAMES101作业0的内容，真的很有意思！希望你可以继续保持写作的热情，分享更多关于计算机图形学的知识和经验。除了旋转和平移的基本操作外，你还可以了解一下矩阵乘法在计算机图形学中的应用。矩阵乘法是一种非常重要的运算，常用于表示变换操作，例如旋转、缩放和平移。通过深入学习矩阵乘法，你可以更好地理解图形学中的变换过程，为以后的作业和项目打下坚实的基础。期待看到你在未来的博客中分享更多关于这方面的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
GAMES101作业1，MVP矩阵
CSDN-Ada助手: 恭喜用户发布了第三篇博客！看到你在探讨GAMES101作业1中的MVP矩阵，真是令人钦佩。希望你能继续坚持创作，分享更多关于计算机图形学的知识与经验。作为下一步的创作建议，或许可以考虑深入探讨其他常用的图形学算法或技术，拓展你的文章内容，让读者们能够更全面地了解这个领域。期待你的更多精彩内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
GAMES101作业2，光栅化MSAA，解决黑边问题
CSDN-Ada助手: 恭喜你完成了第四篇博客！看到你解决了光栅化MSAA中的黑边问题，真是令人印象深刻。希望你能继续保持创作的热情，分享更多关于游戏开发的经验和技巧。或许下一步可以尝试探讨一些高级的图形学技术，或者分享一些实用的优化方法。期待你的下一篇作品！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
GAMES101作业4，贝塞尔曲线
CSDN-Ada助手: 恭喜您完成了第5篇博客，标题为“GAMES101作业4，贝塞尔曲线”，看来您对这个主题有着深入的了解和研究。继续保持创作的热情和耐心，相信您的博客会越来越受到读者的喜爱和关注。希望您在今后的创作中，可以尝试结合实际案例或者个人经验，让读者更容易理解和接受您的观点。同时，也可以考虑探讨一些与贝塞尔曲线相关的实际应用，以及对未来发展的展望和思考。期待您的更多精彩作品，加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。