【Hugging Face】transformers 库中的 AutoModelForQuestionAnswering：自动加载适用于问答任务的 Transformer 模型

彬彬侠

于 2025-03-10 12:53:58 发布

阅读量700

点赞数 7

本文链接：https://blog.csdn.net/u013172930/article/details/146151370

版权

Hugging Face 专栏收录该内容

66 篇文章

订阅专栏

Hugging Face `transformers` 库中的 `AutoModelForQuestionAnswering`

AutoModelForQuestionAnswering 是 Hugging Face transformers 提供的 自动加载适用于问答任务（Question Answering, QA）的 Transformer 模型 的类。它可以 根据提供的模型名称自动选择正确的问答模型架构，例如：

BERT (BertForQuestionAnswering)
RoBERTa (RobertaForQuestionAnswering)
DistilBERT (DistilBertForQuestionAnswering)
XLNet (XLNetForQuestionAnswering)
Electra (ElectraForQuestionAnswering)

1. 为什么使用 `AutoModelForQuestionAnswering`？

在 transformers 库中，每个模型都有对应的 ForQuestionAnswering 版本，例如：

from transformers import BertForQuestionAnswering, RobertaForQuestionAnswering

model_bert = BertForQuestionAnswering.from_pretrained("bert-base-uncased")
model_roberta = RobertaForQuestionAnswering.from_pretrained("roberta-base")

但如果你希望 代码适用于任何 Transformer 模型，可以使用 AutoModelForQuestionAnswering：

from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")

这样即使换成 roberta-base、distilbert-base-uncased 也能运行，无需修改代码。

2. `AutoModelForQuestionAnswering` 的基本用法

2.1. 加载预训练模型

from transformers import AutoTokenizer, AutoModelForQuestionAnswering

# 选择 Transformer 模型
model_name = "bert-base-uncased"

# 加载 tokenizer 和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

AutoTokenizer 负责分词
AutoModelForQuestionAnswering 负责问答任务

2.2. 进行问答任务

假设我们有一个问题（question）和一段文本（context）：

question = "What is Hugging Face?"
context = "Hugging Face is a company that specializes in natural language processing."

步骤：

使用 tokenizer 进行编码
转换为张量
输入 AutoModelForQuestionAnswering 进行预测
提取答案

import torch

# 编码问题和上下文
inputs = tokenizer(question, context, return_tensors="pt")

# 进行预测
with torch.no_grad():
    outputs = model(**inputs)

# 获取 start_logits 和 end_logits
start_logits = outputs.start_logits
end_logits = outputs.end_logits

# 获取答案的起始和结束位置
start_index = torch.argmax(start_logits)
end_index = torch.argmax(end_logits) + 1

# 解码答案
answer = tokenizer.convert_tokens_to_string(
    tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][start_index:end_index])
)

print(f"Predicted answer: {answer}")

示例输出：

Predicted answer: a company that specializes in natural language processing

3. `AutoModelForQuestionAnswering` 的关键参数

参数	作用
`AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")`	加载问答模型
`tokenizer(question, context, return_tensors="pt")`	编码输入
`outputs.start_logits`	预测答案起始位置
`outputs.end_logits`	预测答案结束位置
`tokenizer.convert_ids_to_tokens()`	将 token ID 转换为单词
`torch.argmax(start_logits)`	获取起始 token 位置
`torch.argmax(end_logits)`	获取结束 token 位置

4. 训练 `AutoModelForQuestionAnswering`

如果你想 微调 BERT 进行问答任务，可以使用 Hugging Face Trainer。

4.1. 加载 SQuAD 数据集

使用 Hugging Face datasets 库加载 SQuAD 问答数据：

from datasets import load_dataset

dataset = load_dataset("squad")

数据格式

{
  'question': 'What is the capital of France?',
  'context': 'Paris is the capital of France.',
  'answers': {'text': ['Paris'], 'answer_start': [0]}
}

4.2. 预处理数据

使用 tokenizer 进行分词，并转换 answers：

def preprocess(example):
    inputs = tokenizer(
        example["question"], example["context"],
        truncation=True, padding="max_length",
        max_length=384
    )
    start_positions = example["answers"]["answer_start"][0]
    end_positions = start_positions + len(example["answers"]["text"][0])

    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions
    return inputs

encoded_dataset = dataset.map(preprocess, batched=True)

4.3. 训练模型

使用 Trainer 进行微调：

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    logging_dir="./logs",
    logging_steps=10,
    save_total_limit=2,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["validation"],
)
trainer.train()

5. `AutoModelForQuestionAnswering` 的模型架构

AutoModelForQuestionAnswering 主要由 Transformer 编码器 + 问答预测头（Start & End Position Prediction） 组成：

[Transformer Encoder]
      ↓
[Start Position Head] → 预测答案起始位置
      ↓
[End Position Head] → 预测答案结束位置

Transformer 负责理解文本和问题
Start/End 位置预测头分别预测答案的起始和结束 token 位置
最终提取 context[start:end] 作为答案

6. `AutoModelForQuestionAnswering` 适用于哪些任务？

任务	适用情况
阅读理解（如 SQuAD）	✅
文档问答	✅
聊天机器人 QA	✅
开放域问答（Open-Domain QA）	❌（需要 `retriever`）

如果你的任务是 开放域问答（如 Google Search QA），需要 结合 retriever（如 FAISS） 进行信息检索。

7. `AutoModelForQuestionAnswering` vs `BertForQuestionAnswering`

模型	作用
`BertForQuestionAnswering`	仅适用于 BERT
`AutoModelForQuestionAnswering`	适用于任何 Transformer 模型

如果代码只使用 BERT，可以用：

from transformers import BertForQuestionAnswering

model = BertForQuestionAnswering.from_pretrained("bert-base-uncased")

但如果要 支持不同模型（BERT, RoBERTa, XLNet），推荐：

from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")

8. 总结

AutoModelForQuestionAnswering 是 transformers 提供的自动加载问答模型的类，适用于 阅读理解、文档问答等任务。
自动匹配适合的 Transformer 模型，支持 BERT、RoBERTa、DistilBERT 等。
兼容 Hugging Face datasets，可以轻松进行微调。
支持 SQuAD 数据集，适用于问答任务微调。