使用xlnet实现中文文本分类超详细（附代码）

最新推荐文章于 2024-02-18 15:59:00 发布

小白鸽breeze

最新推荐文章于 2024-02-18 15:59:00 发布

阅读量6.5k

点赞数

文章标签： python 深度学习机器学习自然语言处理 pytorch

本文链接：https://blog.csdn.net/ciacai/article/details/105008287

版权

本文指导如何使用xlnet实现中文文本分类，包括下载代码和预训练模型，处理训练数据，编辑run_classifier.py文件创建新任务类，修改main函数，设置输出文件，并提供运行脚本的步骤。通过实例展示了训练过程，强调了在非TPU环境下调整参数的重要性。

摘要由CSDN通过智能技术生成

使用xlnet实现中文文本分类

1、下载xlnet代码
https://github.com/zihangdai/xlnet
2、下载xlnet中文预训练模型
https://github.com/ymcui/Chinese-PreTrained-XLNet
3、训练数据的处理
新建一个文件夹，文件夹名字随意。在此处放置三个单独的文件：train.tsv dev.tsv和test.tsv。在train.tsv，dev.tsv没有标题，如下所示：第1列：行的ID（可以是计数，或者如果你不希望跟踪每个人，则每行甚至可以是相同的数字或字母），第2列：该行的标签为int。这些是分类器旨在预测的分类标签。第3列：所有字母均相同的列，因此您需要包括一个一次性的列。第4栏：您要分类的文本示例。
train.tsv和dev.tsv的示例：
在这里插入图片描述
test.tsv格式略有不同。它具有第1列：每个示例的ID，类似于train和dev文件中的第1列，以及第2列：要分类的文本。另外，test.tsv应该有一个标题行（而train和dev没有）。这是test.tsv的示例：

4、打开xlnet-master中的run_classifier.py文件，进行两处修改
1）新建一个mytask类，此类与已有的类并列即可；标签可以根据需要自定义。

class MyTaskProcessor(DataProcessor):
    def __init__(self):
        self.train_file = "train.tsv"
        self.dev_file = "dev.tsv"
        self.test_file = "test.tsv"
        self.label_column = 1
        self.text_a_column = 3
        self.text_b_column = None
        self.contains_header = True
        self.test_text_a_column = None
        self.test_text_b_column = None
        self.test_contains_header = True

    def get_train_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self._read_tsv(os.path.join(data_dir, self.train_file)), "train")

    def get_dev_examples(self, data_dir):
        """See base class."""
        return self._create_examples(
            self._read_t

最低0.47元/天解锁文章

小白鸽breeze

关注

0
点赞
踩
39

收藏

觉得还不错? 一键收藏
13
评论
使用xlnet实现中文文本分类超详细（附代码）

使用xlnet实现中文文本分类1、下载xlnet代码https://github.com/zihangdai/xlnet2、下载xlnet中文预训练模型https://github.com/ymcui/Chinese-PreTrained-XLNet3、训练数据的处理新建一个文件夹，文件夹名字随意。在此处放置三个单独的文件：train.tsv dev.tsv和test.tsv。在tra...
复制链接

扫一扫