BERT Pre-training of deep bidirectional transformers for language understanding
BERT: Pre-training of deep bidirectional transformers for language understanding1.embbert emb的输入时三个emb的和,首先是token自己的emb,其次是segment emb(区分属于第几个句子), 第三个是position emb2.预训练任务替换策略:MLM(普遍使用)替换策略:15%做处理,在其中:80%做[MASK]10%随机token替换10%不替换NSP(句子
原创
2022-04-29 23:02:37 ·
1082 阅读 ·
0 评论