文本分类：BERT 实战

最新推荐文章于 2024-04-09 15:18:52 发布

VIP文章姬香

最新推荐文章于 2024-04-09 15:18:52 发布

阅读量2.4k

点赞数 2

分类专栏： Tensorflow

本文链接：https://blog.csdn.net/qq_18310041/article/details/88879438

版权

经上一篇博文，相信模型的环境准备已经完成啦！

接下来我们需要根据不同的任务，使用BERT提高准确率。

此篇讲的是文本的分类：

1.数据的格式

需要准备3个文件，分别是训练集、验证集、测试集，格式相同，每行为一个类别+文本，用“\t”间隔。（如果选择其他间隔符，需要修改run_classifier.py中_read_tsv方法）。

2.修改run_classifier.py

(1)添加处理数据的类，class MyProcessor()，如下：（说明：数据文件读取的类DataProcessor, 官方自带了4个不同数据集(Xnli, Mnli, Mrpc和Cola)的子类）

class MyProcessor(DataProcessor):
    """Processor for my data set."""
    def get_train_examples(self, data_dir):
        examples = []
        file_path = os.path.join(data_dir, 'train.csv')
        df = pd.read_csv(file_path, encoding='utf-8')
        for i, data in enumerate(df.values):
            guid = 'train-%d' % (i)
            text_a = tokenization.convert_to_unicode(str(data[1]))
            label = str(data[2:])
            examples.append(InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
        return examples

    def get_test_examples(self, data_dir):
        examples = []
        file_path = os.path.join(data_dir, 'test.csv')
        df = pd.read_csv(file_path, encoding='utf-8')
        for i, data in enumerate(df.values):
            guid = 'test-%d' % (i)
            text_a = tokenization.convert_to_unicode(str(data[1]))
            label = str(data[2:])
            examples.append(InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
        ret

最低0.47元/天解锁文章

姬香

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
5
评论
文本分类：BERT 实战

经上一篇博文，相信模型的环境准备已经完成啦！接下来我们需要根据不同的任务，使用BERT提高准确率。此篇讲的是文本的分类：1.数据的格式需要准备3个文件，分别是训练集、验证集、测试集，格式相同，每行为一个类别+文本，用“\t”间隔。（如果选择其他间隔符，需要修改run_classifier.py中_read_tsv方法）。2.修改run_classifier.py(1)添加...
复制链接

扫一扫