1、BERT的结构 2、BERT的预训练 bert的预训练包括两个训练: 1、MLM:随机mask输入序列中的token,并预测被mask的token 2、NSP:预测两个句子是否连在一起 3、BERT的应用 参考: 李宏毅老师最新课程ELMO,BERT,GPT