文章目录 1. 数据准备 1.1 构建语料库 1.2 构建字典文件 2. 创建预训练数据 3. 预训练 4. 训练BERT代码链接 5. BERT下游任务应用举例 5.1 将tf模型转换成pytorch格式 5.2 使用simpletransformers进行文本分类 1. 数据准备 1.1 构建语料库 如果没有给定语料库文件(如corpus.txt),则可使用训练集、测试集数据来构建语料库文件,具体代码如下所示(代码文件名为): filtered_line = set() with open('../../data/raw/train.txt', 'r') as f: line = f.readline() while line: