使用 T5 模型来做文本分类任务的一些总结

最新推荐文章于 2025-03-05 18:06:17 发布

friedrichor

最新推荐文章于 2025-03-05 18:06:17 发布

阅读量5k

点赞数

分类专栏：自然语言处理NLP 文本分类文章标签：分类深度学习 nlp 人工智能自然语言处理

本文链接：https://blog.csdn.net/Friedrichor/article/details/129926790

版权

自然语言处理NLP 同时被 2 个专栏收录

16 篇文章

订阅专栏

文本分类

2 篇文章

订阅专栏

文章介绍了如何利用T5text2text模型进行文本分类，强调了模型的泛化能力。训练时采用Adafactor优化器，减少了内存消耗，并提供了学习率的一般设置。此外，提到了AdafactorSchedule调度器的使用，以及在不同任务中1e-4和3e-4的学习率效果良好。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

T5

paper：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
T5 本身是一个 Text-to-Text 模型，但其不仅仅能做传统的 text2text 任务 (如对话、QA、文本摘要等等)，也能做文本分类这种任务，T5 基本可以用于所有的 NLP 任务，并且拥有很好的性能。

text2text 模型如何做 text classification？

简单来说输入就是文本句子，输出就是类别词（如 positive, negative ），当然，这可能有一个问题：模型生成的输出的单词如果不是类别词呢？但作者也在论文中说了，一个在相应数据集上训练过的 T5 模型如果在做文本分类时，模型的输出肯定是类别词，不会出现非类别词，如果模型输出是非类别词，那么很有可能就是模型训练不充分。

在训练时，以下代码即可，其中 labels 就是类别词的编码结果

outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)

推理的代码如下：

out = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=2)

具体如何做推理的代码可以参考：T5: classification using text2text?

优化器和调度器(optimizer and scheduler)

作者在论文中写了在训练时使用的优化器是 Adafactor，Adafactor 是专门为 Transformer 类模型所设计的，相比于 Adam 占用更少的显存，能够有效减少训练时所需的显存。

paper: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

关于如何调用 Adafactor，可以参考 HuggingFace Adafactor：

可以通过以下示例使用：

Adafactor(model.parameters(), scale_parameter=False, relative_step=False, warmup_init=False, lr=1e-3)

有人发现下面这个设置更好：

Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)

如果设置 lr=None，那么最好调度器使用 AdafactorSchedule

from transformers.optimization import Adafactor, AdafactorSchedule

optimizer = Adafactor(model.parameters(), scale_parameter=True, relative_step=True, warmup_init=True, lr=None)
lr_scheduler = AdafactorSchedule(optimizer)