【自然语言处理】预训练模型BERT的发展现状

最新推荐文章于 2024-12-10 17:20:01 发布

孟知之

最新推荐文章于 2024-12-10 17:20:01 发布

阅读量1.4k

点赞数

分类专栏：自然语言处理文章标签： nlp bert 自注意力机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42526352/article/details/104808327

版权

目前，从bert的应用来看，已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用，并在部分应用领域取得了突破性的效果提升。

1. BERT

BERT基于一种相对较新的神经网络结构——Transformers，使用一种叫做“Self-attention”的机制来捕捉单词之间的关系。Transformers中没有卷积(如CNNs)或递归操作(如RNNs)(“Attention is all you need”)。

1.1 自注意力机制

Self-attention是一个sequence-to-sequence的操作，它通过将每个单词的上下文嵌入到其表示中，来更新输入Token的嵌入。这使得它可以同时对所有输入单词之间的关系建模——这与RNNs形成了对比，在RNNs中，输入Token被读入并按顺序处理。Self-attention使用点积计算词向量之间的相似度，由此得到的注意权重通常被可视化为一个注意权重矩阵。
注意力权重捕捉单词之间的关系强度，我们允许模型通过使用多个注意力头来学习不同类型的关系。每个注意力头通常捕捉单词之间的一种特定类型的关系(带有一些冗余)。其中一些关系是可以直观地解释的(如主-客体关系，或跟踪邻近的词)，而另一些关系则相当难以理解。你可以把注意力头部想象成卷积网络中的过滤器，在卷积网络中，每个过滤器从数据中提取特定类型的特征——无论哪种特征都能帮助神经网络的其余部分做出更好的预测。
Self-attention机制是Transformer的核心操作，但让我们把它放在上下文中:Transformer最初是为机器翻译而开发的，它们有一个编码器和解码器结构。Transformer编码器和解码器的组成部分是一个Transformer块，它本身通常由一个自注意层、一定量的正则化和一个标准前馈层组成。每

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

孟知之 如果能帮助到你们，可否点个赞？

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。