LNWT--篇章三小测

最新推荐文章于 2024-11-01 17:13:19 发布

__如果

最新推荐文章于 2024-11-01 17:13:19 发布

阅读量362

点赞数 5

文章标签：人工智能深度学习机器学习 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73202283/article/details/139556597

版权

问题1: BERT训练时候的学习率learning rate如何设置?

在训练初期使用较小的学习率（从 0 开始），在一定步数（比如 1000 步）内逐渐提高到正常大小（比如上面的 2e-5），避免模型过早进入局部最优而过拟合；

在训练后期再慢慢将学习率降低到 0，避免后期训练还出现较大的参数变化。

在 Huggingface 的实现中，可以使用多种 warmup 策略：

TYPE_TO_SCHEDULER_FUNCTION = {
    SchedulerType.LINEAR: get_linear_schedule_with_warmup,
    SchedulerType.COSINE: get_cosine_schedule_with_warmup,
    SchedulerType.COSINE_WITH_RESTARTS: get_cosine_with_hard_restarts_schedule_with_warmup,
    SchedulerType.POLYNOMIAL: get_polynomial_decay_schedule_with_warmup,
    SchedulerType.CONSTANT: get_constant_schedule,
    SchedulerType.CONSTANT_WITH_WARMUP: get_constant_schedule_with_warmup,
}

具体而言：

CONSTANT：保持固定学习率不变；

CONSTANT_WITH_WARMUP：在每一个 step 中线性调整学习率；

LINEAR：上文提到的两段式调整；

COSINE：和两段式调整类似，只不过采用的是三角函数式的曲线调整；

COSINE_WITH_RESTARTS：训练中将上面 COSINE 的调整重复 n 次；

POLYNOMIAL：按指数曲线进行两段式调整。具体使用参考transformers/optimization.py：最常用的还是get_linear_scheduler_with_warmup即线性两段式调整学习率的方案。

问题2: BERT模型使用哪种分词方式？

BERT 使用的分词方式是基于 WordPiece Tokenization 的。

WordPiece 将单词分成子词单元。例如，单词 "playing" 可以被分解成 ["play", "##ing"]，其中 "##" 表示这个子词不是一个独立的词，而是一个前一个词的继续

通过子词分词，BERT 可以使用较小的词汇表来覆盖更多的词汇。BERT 的词汇表大小通常是 30,000 左右

当遇到一个未登录词时，WordPiece 会将其拆分成多个子词，这些子词组合起来能够尽可能地匹配原始词

问题3: 如何理解BERT模型输入的type ids？

用于区分模型输入中的不同句子，指示每个 token 属于哪一个句子

区分句子对：

当输入包含两个句子时，type_ids 用于指示每个 token 属于哪个句子。句子 A 的所有 token 的 type_id 为 0，句子 B 的所有 token 的 type_id 为 1。

用于注意力机制：

BERT 模型的自注意力机制会结合 type_ids 信息来学习句子间的关系。通过这种方式，模型能够区分两个句子并理解它们之间的关系。

问题4: Hugginface代码中的BasicTokenizer作用是？

将输入文本分解成单独的 token：

将标点符号与单词分开、可以将文本转换为小写、去除多余的空格，确保每个 token 之间只有一个空格、确保输入文本是规范的 Unicode 格式

问题5: WordPiece分词的好处是什么？

既在一定程度保留了词的含义，又能够照顾到英文中单复数、时态导致的词表爆炸和未登录词的 OOV（Out-Of-Vocabulary）问题，将词根与时态词缀等分割出来，从而减小词表，也降低了训练难度

问题6: BERT中的warmup作用是什么？

避免模型过早进入局部最优而过拟合、避免后期训练还出现较大的参数变化

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。