2021年10月中旬—字节AI LAB NLP算法面试题（一）

最新推荐文章于 2024-06-20 16:47:38 发布

niuyunpang

最新推荐文章于 2024-06-20 16:47:38 发布

阅读量555

点赞数

文章标签：百度自然语言处理人工智能机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/niuyunpang/article/details/121443618

版权

问题一：bert的架构是什么目标是什么输入包括了什么三个embedding输入是怎么综合的？

Bert的结构主要是Transformer的encoder部分，其中Bert_base有12层，输出维度为768，参数量为110M，Bert_large有24层，输出维度为1024，参数总量为340M。

Bert的目标是利用大规模无标注语料训练，获得文本包含丰富语义信息的表征。

Bert的输入：token embedding，segment embedding，position embeddimg，三个向量相加作为模型的输入。

文末VIP会员、机械键盘、纸质书、硬盘等包邮送!

问题二： transformer里面每一层的主要构成有哪些

Transformer本身是一个典型的encoder-decoder模型，Encoder端和Decoder端均有6个Block，Encoder端的Block包括两个模块，多头self-attention模块以及一个前馈神经网络模块；

**Decoder端的Block包括三个模块，**多头self-attention模块，多头Encoder-Decoder attention交互模块，以及一个前馈神经网络模块；

需要注意：Encoder端和Decoder端中的每个模块都有残差层和Layer Normalization层。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021年10月中旬—字节AI LAB NLP算法面试题（一）

问题一：bert的架构是什么目标是什么输入包括了什么三个embedding输入是怎么综合的？Bert的结构主要是Transformer的encoder部分，其中Bert_base有12层，输出维度为768，参数量为110M，Bert_large有24层，输出维度为1024，参数总量为340M。Bert的目标是利用大规模无标注语料训练，获得文本包含丰富语义信息的表征。Bert的输入：token embedding，segment embedding，position embeddimg，三个向量.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。