前言
大模型应该是目前当之无愧的最有影响力的AI技术,它正在革新各个行业,包括自然语言处理、机器翻译、内容创作和客户服务等,正成为未来商业环境的重要组成部分。
截至目前大模型已超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关岗位和面试也开始越来越卷了。

我今天给大家分享一些梳理的面试题,内容较长,喜欢记得收藏、关注、点赞。
Transformer
1.attention
2.layer_normalization
3.位置编码
4.tokenize分词
5.token及模型参数
6.激活函数

BERT
一、BERT 用字粒度和词粒度的优缺点
(一)字粒度(Character-level)
- 优点:
- 处理未登录词(Out-of-Vocabulary,OOV):字粒度可以处理任意字符串,包括未登录词,不需要像词粒度那样遇到未登录词就忽略或使用特殊标记。对于少见词和低频词,字粒度可以学习更丰富的字符级别表示,使得模型能够更好地捕捉词汇的细粒度信息。
- 缺点:
- 计算复杂度高:使用字粒度会导致输入序列的长度大大增加,进而增加模型的计算复杂度和内存消耗。
- 需要更多的训练数据:字粒度模型对于少见词和低频词需要更多的训练数据来学习有效的字符级别表示,否则可能会导致过拟合。
(二)词粒度(Word-level)
- 优点:
- 计算效率高:使用词粒度可以大大减少输入序列的长度,从而降低模型的计算复杂度和内存消耗。
- 学习到更加稳定的词级别表示:词粒度模型可以学习到更加稳定的词级别表示,特别是对于高频词和常见词,有更好的表示能力。
- 缺点:
- 处理未登录词(OOV):词粒度模型无法处理未登录词,遇到未登录词时需要采用特殊处理(如使用未登录词的特殊标记或直接忽略)。
- 对于多音字等形态复杂的词汇,可能无法准确捕捉其细粒度的信息。
二、BERT 的 Encoder 与 Decoder 掩码的区别
Encoder 主要使用自注意力掩码和填充掩码,而 Decoder 除了自注意力掩码外,还需要使用编码器 - 解码器注意力掩码来避免未来位置信息的泄露。这些掩码操作保证

最低0.47元/天 解锁文章
1624

被折叠的 条评论
为什么被折叠?



