使用google的bert结合哈工大预训练模型进行中文/英文文本二分类,基于pytorch和transformer
使用bert的哈工大预训练模型进行中文/英文文本二分类,基于pytorch和transformer前提简要介绍开始导入必要的包和环境准备并读取数据导入模型的tokenizer对数据进行tokenizer,也就是分片,并加入`[CLS]`、`[SEP]`等bert的默认标签对句子进行attention_mask:分割训练数据集和验证数据集,在这将90%的进行训练,10%进行验证转换为torch tensor:使用pytorch的dataloader帮助我们进行batch_size的划分和自动化输入模型导入查看
翻译
2020-11-27 00:57:30 ·
8991 阅读 ·
15 评论