BERT各个超参数含义

"attention_probs_dropout_prob": 0.1,                      #乘法attention时,softmax后dropout概率

"directionality": "bidi", "hidden_act": "gelu",              # 激活函数          高斯误差线性单元

"hidden_dropout_prob": 0.1,                                    # 隐藏层dropout概率

"hidden_size": 768,                                                 # 隐藏单元数

"initializer_range": 0.02,                                          # 权重初始化range

"intermediate_size": 3072,                                      # 升维维度      前馈全连接层维度768-3072-768

"max_position_embeddings": 512,                         # 最大序列长度,比真实的大的多,但不能减

"num_attention_heads": 12,                                   # #在encoder层中的注意头个数

"num_hidden_layers": 12,                                      # 隐藏层数

"pooler_fc_size": 768,                                            # 【CLS】张量维度

"pooler_num_attention_heads": 12,

"pooler_num_fc_layers": 3,

"pooler_size_per_head": 128,

"pooler_type": "first_token_transform",

"type_vocab_size": 2,                                           # segment imbadding

"vocab_size": 21128                                             # 词汇数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值