bert模型_github bert-CSDN博客

本文链接：https://blog.csdn.net/qq_30122883/article/details/88654880

BERT官方Github地址：https://github.com/google-research/bert ，其中对BERT模型进行了详细的介绍，更详细的可以查阅原文献：https://arxiv.org/abs/1810.04805 。

BERT本质上是一个两段式的NLP模型。第一个阶段叫做：Pre-training，跟WordEmbedding类似，利用现有无标记的语料训练一个语言模型。第二个阶段叫做：Fine-tuning，利用预训练好的语言模型，完成具体的NLP下游任务。

Google已经投入了大规模的语料和昂贵的机器帮我们完成了Pre-training过程，这里介绍一下不那么expensive的fine-tuning过程。

回到Github中的代码，只有run_classifier.py和run_squad.py是用来做fine-tuning 的，其他的可以暂时先不管。这里使用run_classifier.py进行句子分类任务。

代码解析：

从主函数开始，可以发现它指定了必须的参数：

if __name__ == "__main__":
  flags.mark_flag_as_required("data_dir")
  flags.mark_flag_as_required("task_name")
  flags.mark_flag_as_required("vocab_file")
  flags.mark_flag_as_requi