BERT文本分类使用指南

最新推荐文章于 2024-08-16 13:29:44 发布

蜡笔大龙猫

最新推荐文章于 2024-08-16 13:29:44 发布

阅读量2.3w

点赞数 7

分类专栏：深度学习算法文章标签：深度学习自然语言处理 BERT

本文链接：https://blog.csdn.net/pirage/article/details/85164063

版权

该博客详细介绍了如何利用BERT进行多类别文本分类，从下载项目、环境配置、数据准备、修改run_classifier.py文件到运行模型，适合熟悉BERT和文本分类的读者。

摘要由CSDN通过智能技术生成

本文档介绍了如何使用BERT实现多类别文本分类任务，适合稍微了解BERT和文本分类的同学参考。

（一）下载

首先，在github上clone谷歌的BERT项目，或者直接下载。项目地址

然后，下载中文预训练模型，地址

（二）环境准备

tensorflow >= 1.11.0

注意：

在GPU上运行Tensorflow，需要CUDA版本和Tensorflow版本的对应。比如Tensorflow-1.11.0最高只能使用9.0版本的CUDA，否则加载时会出现找不到libcublas.so的错误。
安装TensorFlow时，如果出现无法卸载enum34的错误，可以用pip install *** --ignore_installed enum34命令先跳过。

（三）数据准备

准备数据集，包括训练集、验证集、测试集，格式相同，每行为一个类别+文本，用“\t”间隔。（如果选择其他间隔符，需要修改run_classifier.py中_read_tsv方法）。

我做的是新闻文本分类，数据格式如下：

在这里插入图片描述

（四）修改run_classifier.py文件

添加处理数据集的类，class ZbsProcessor(DataProcessor)，分别实现以下方法：

def get_train_examples(self, data_dir): 读取训练集
def get_dev_examples(self, data_dir): 读取验证集
def get_test_examples(self, data_dir): 读取测试集
def get_labels(self, labels): 获得类别集合
def _create_examples(self, lines, set_type): 生成训练和验证样本

修改main函数。在第744行，将ZbsProcessor添加到processors中

processors = {
   
    "cola": ColaProcessor,
    "mnli": MnliProcessor,
    "mrpc": MrpcProcessor,
    "xnli": XnliProcessor,
    "zbs": ZbsProcessor
}

原代码中，先判断是否train，然后获取训练样本，但是后面需要所有类别，所以需要改成先获取所有类别，然后判断判断是否train。即代码：

if FLAGS.do_train:
  train_examples = processor.get_train_examples

最低0.47元/天解锁文章

蜡笔大龙猫

关注

7
点赞
踩
74

收藏

觉得还不错? 一键收藏
49
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BERT文本分类使用指南

（一） 下载

（二） 环境准备

（三） 数据准备

（四） 修改run_classifier.py文件

（一）下载

（二）环境准备

（三）数据准备

（四）修改run_classifier.py文件