Bert预训练相关参数梳理

5 篇文章 1 订阅
4 篇文章 0 订阅

在这里插入图片描述

Bert预训练相关参数梳理
作者:白鹿


第一阶段:CreatePretrainData阶段

参数名称参数说明
do_lower_case是否忽略大小写
max_seq_length每条训练数据的最大长度,过长的会截取,不够的会进行padding
max_predictions_per_seq每条样本被允许遮蔽token的最大数量
masked_lm_prob每条样本以15%的概率遮蔽token,具体内部还有8:1:1区分处理
short_seq_prob命令行中参数, 默认0.1, 以10%的概率生成短训练样本, 以增加鲁棒性
dupe_factor命令行中的dupe_factor, 最外层循环, 直观理解是同一句话生成了dupe_factor条样本(不过每条样本的next sentence(视text_a 和text_b 文本具体情况有可能不同)和masks不同)

第二阶段:Pretrain阶段

参数名称参数说明
max_seq_length同上
max_predictions_per_seq同上
train_batch_size----
eval_batch_size----
learning_rate----
num_train_stepsmax train step
num_warmup_steps当训练的步数global_steps小于warmup_steps时,将学习率乘以global_steps/warmup_steps这样一个线性增长的系数。如果这个数设的太大(尤其当训练样本超大时)前期学习率会很低基本不优化。
iterations_per_loop在tpu或者gpu每个评估单元调用过程中要执行多少步骤
do_train/do_eval-----
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值