BERT_

最新推荐文章于 2024-09-09 21:55:53 发布

大鸣王潮2024

最新推荐文章于 2024-09-09 21:55:53 发布

阅读量440

点赞数 8

分类专栏：论文收集文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bliblisukabulie/article/details/142055216

版权

论文收集专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在BERT之前没有一个好的深度网络使得训练好之后能够帮助一大片的NLP任务
pre-training预训练
？BERT是芝麻街里面另外一个主人公的名字

摘要

BERT使用了左侧和右侧的信息预测未来（双向）

引入

NLP之前没有预训练的，BERT后就有了。
两种预训练：基于特征的，微调
将学到的特征和输入一一起放进去，作为一个很好的特征的表达。
标准的语言模型是单向的。但如果要对句子做一些分析，比如说情绪分析，从左到右和从右到左都是一样的，同理还有QA。
如果把两个方向的信息都放出来后，应该能够提升性能。
带掩膜的模型，等价于给句子挖一些空填，相当于完形填空。还训练了下一个句子的预测，随机采样两个句子判断他们是否相邻。
三点贡献：

证明了双向预训练语言表征的重要性
BERT是第一个基于微调的模型，效果好

相关工作

非监督基于特征的方法：elmo
非监督的微调方法：
带标号的数据上迁移学习L在NLP这方面效果并不好
trick：无监督的大量数据，比有监督的少量数据摇号

模型

下游任务会根据具体内容微调，初始化用预训练的模型

多层双向transformer编码器
模型的可学习参数来源有二：一是嵌入层（输入字典的大小，输出是隐藏单元H，头的个数A64=H），二是transformer块

自注意力块的总可学习参数为H^24
后面跟一个全连接层，总学习参数为H^2 8
一共L个transformer块，12L*H^2(transformer块) + 30k H(嵌入向量)

输入/输出表征：
输入是一段序列，可以一个句子也可以两个句子。

切词使用WordPiece（如果一个词出现频率低且较长，看能否把他切成高频的子序列，只保留该子序列）

每个序列的句首token为[CLS]。用特别的token[SEP]分开不同的句子，加一个可学习的嵌入层。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

embedding的构成：tokenembed + segmentembed(属于哪个句子)+positionembed（位置）都是可学习的

随机将15%的词元替换成特殊的掩码token[mask]。还要细分，内部的80%真的是mask，10%替换成随机词语，10%替换成目标。（加噪音）

Task

预测下一个句子
50%概率B真的在A之后，50%B随机选取句子（有正例和反例）
BERT识别句子之间的关系？

实验

GLUE：句子分类数据集。CLS对应的输出向量，多加一个MLP+softmax层作为多分类问题
SQuad：QA数据集，学习两个概率S，E分别对应是答案开始和答案最后的概率

总结

主要工作把前人的结果拓展到深的双向的架构上面，使得同样的预训练模型能够成功处理大量得那不一样的自然语言的任务
具体来说不是把语言模型变成预测未来，而是变成完形填空

评价

选择双向性有些不好，失去了可解释性，在机器翻译任务上效果不太好

启示

有意思，BERT跟gpt和elmo的区别是什么
讲你的模型好时候，需要列出你的绝对精度和相对别人提升的精度，哪些任务好
论文需要自洽，后面人过来读可能不知道你的概念，但这是你的方法不可或缺的一部分

大鸣王潮2024

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
BERT_

BERT使用了左侧和右侧的信息预测未来（双向）主要工作把前人的结果拓展到深的双向的架构上面，使得同样的预训练模型能够成功处理大量得那不一样的自然语言的任务具体来说不是把语言模型变成预测未来，而是变成完形填空。
复制链接

扫一扫

专栏目录

大鸣王潮2024 CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

34万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

392: 积分

109: 粉丝

163: 获赞

4: 评论

158: 收藏

私信

关注

热门文章

分类专栏

最新评论

VIT论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Moco论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
小白的opencv学习笔记v2.0
CSDN-Ada助手: 非常感谢您分享这篇关于OpenCV的博客，您的学习笔记对于像我这样的初学者来说非常有帮助。除了您提到的内容，我想向您介绍一些OpenCV的扩展技能，例如使用OpenCV进行图像处理和分析、图像识别、目标跟踪和机器学习等。希望您能够继续分享您的学习笔记，并且不断探索新的技能和知识领域。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
py小工具（转换颜色空间，画图查看轨迹长度与面积）
CSDN-Ada助手: 非常感谢您分享的这篇博客！转换颜色空间、画图查看轨迹长度与面积这些小工具对于Python的初学者来说非常实用。您的创造力和技巧让我深感敬佩。我期待着您接下来的创作，也希望您能够继续分享您的经验和见解，让更多的人受益。如果您想继续写作，我建议您可以尝试写一些高级的主题，例如机器学习或数据可视化方面的内容。再次感谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
目标追踪概述
CSDN-Ada助手: 恭喜你写了这篇关于目标追踪的博客，对读者来说是一份非常有价值的资源。我认为下一步你可以探讨一些实际的案例，以帮助读者更深入地理解目标追踪的概念和应用。再次感谢你的分享，期待你未来更多的创作。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。