【NLP自然语言处理】为什么说BERT是bidirectional

笨小孩※

于 2024-07-25 10:32:52 发布

阅读量159

点赞数 7

文章标签： transformer bert 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64280569/article/details/140683126

版权

首先，来看一下Transformer架构图：
在这里插入图片描述
我们知道，Bert设计时主要采用的是Transformer编码器部分，要论述Bert为啥是双向的，我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前，需要对Transformer有一定的了解，在这里推荐博客翻译: 详细图解Transformer

我们知道，编码器部分的注意力机制采用多头注意力机制，而为什么要用MultiHead Attention，Transformer给出的解释为：Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息；

而解码器部分采用的是Masked Attention，mask的目的是为了防止网络看到不该看到的内容。

二者区别一个是双向，一个是单向，这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制，这篇博客及其推荐：MultiHead-Attention和Masked-Attention的机制和原理

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【NLP自然语言处理】为什么说BERT是bidirectional

我们知道，Bert设计时主要采用的是Transformer编码器部分，要论述Bert为啥是双向的，我想从编码器和解码器的注意力机制来阐述。二者区别一个是双向，一个是单向，这也就是我如何理解的Bert采用的是双向编码器了。在看这篇博客前，需要对Transformer有一定的了解，在这里推荐博客。而解码器部分采用的是Masked Attention，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。