【HuggingFace】BERT实战：从原理到分类应用（附代码讲解）

# 导入必要的库
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from datasets import load_dataset

# 定义数据集名称和任务类型
dataset_name = "imdb"

# 下载数据集并打乱数据
dataset = load_dataset(dataset_name)
dataset = dataset.shuffle()
input = dataset["train"]["text"][:10]

load_dataset函数
- 输入参数huggingface中数据集名字，输出为导入的数据集对象，key是数据集的子项、对应列的数组。比如数据集imdb：数据集分成三部分。此处引用的是"train"部分，列"text"，返回前10项
shuffle函数
- 打乱数据集中元素顺序，防止返回的前10项数据label都是一样的

3、分词器解析

# 初始化分词器和模型
model_name = "bert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 将文本编码为模型期望的张量格式
inputs = tokenizer(input, padding=True, truncation=True, return_tensors="pt")

AutoTokenizer作用
- AutoTokenizer 是 Hugging Face 提供的一个自动选择合适分词器的类。它可以根据模型名称（如 "bert-base-cased"）自动加载对应的 tokenizer。也就是说，不需要手动判断应该使用哪种分词器（比如 BertTokenizer, RobertaTokenizer 等），只要用 AutoTokenizer.from_pretrained(...)，它会根据预训练模型的配置自动匹配合适的分词器。
tokenizer函数使用
- 原始文本 → WordPiece 分词 → 添加特殊标记 → 编码为 ID → 填充/截断
- 输入参数：

参数	含义
`text`	要编码的文本，可以是一个字符串或者字符串列表
`padding=True`	自动将文本填充到统一长度
`truncation=True`	如果文本太长，会被截断
`return_tensors="pt`	返回 PyTorch 张量（"pt" 表示 PyTorch，也可以是 "tf" 表示 TensorFlow）

输出内容：

返回的是一个 BatchEncoding 对象，本质是一个字典，包含以下常用 key

key	value	含义
`input_ids`	`[101, 2345, 6789, 102, 0]`	每个 token 被转换成对应的 ID（基于模型词汇表）
`attention_mask`	`[1, 1, 1, 1, 0]`	表示哪些 token 是真实内容，哪些是 padding（1 表示有效，0 表示 padding）
`token_type_ids`	无（可选，可能有/没有）	区分句子对中的第一个句子和第二个句子（如在问答任务中）

一个🌰例子

输入两条用户评价input= ["电影好看","不喜欢这电影"]；我们来一步一步地分析：句子1："电影好看"句子2："不喜欢这电影"，使用 BERT 的中文 tokenizer（如 bert-base-chinese）来对它们进行编码，得到 input_ids 和 attention_mask。

第一步：Tokenization 切割

1. "电影好看" 分词为："电"、"影"、"好"、"看" （BERT 的 tokenizer 是基于字的）

加上 [CLS] 和 [SEP] 标记后变成：[CLS] 电影好看 [SEP]，长度是 6。

2. "不喜欢这电影" 分词为："不"、"喜"、"欢"、"这"、"电"、"影"

加上 [CLS] 和 [SEP] 后变成：[CLS] 不喜欢这电影 [SEP]，长度是 8。

第二步：填充后统一长度（padding=True）

所以会统一填充到最大长度 8。

第三步：输出结果

input_ids:

[
  [ 101, 7289, 4638, 2199, 1158,  102,    0,    0],  # "电影好看"
  [ 101,  176, 2115, 2769, 1755, 7289, 4638,  102]   # "不喜欢这电影"
]

attention_mask:

[
  [1, 1, 1, 1, 1, 1, 0, 0],  # 对应第一个句子的有效位置
  [1, 1, 1, 1, 1, 1, 1, 1]   # 所有位置都有效
]

4、加载模型

# 初始化分词器和模型
model_name = "bert-base-cased"
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

注意此处用的是：bert模型+分类头，num_labels=2，所以是二分类

模型结构概览

# 调用print model可以打印出模型结构
print(model)

组件	参数规模	作用
Token Embeddings	512-dim	词向量+位置向量+句子类型向量
Transformer Encoder	12层	自注意力机制提取上下文特征
Pooler Layer	768-dim	`[CLS]`标记的聚合表示

# 打印模型参数的名字和是否需要梯度
for name, param in model.named_parameters():
    print(f"{name}: requires_grad={param.requires_grad}")

分类头机制

class BERTForClassification(nn.Module):
    def __init__(self, num_labels=2):
        self.classifier = nn.Linear(768, num_labels)

注意AutoModelForSequenceClassification在bert模型下面接了一个SequenceClassification分类头，bert中的参数采用和预训练一致，分类头的参数完全是全新的，新随机初始化的

5、模型预测

# 将编码后的张量输入模型进行预测
outputs = model(**inputs)

模型输入输出

# 输入格式
{
    "input_ids": tensor([[101, 2345, ..., 102]]), 
    "attention_mask": tensor([[1, 1, ..., 1]]),
    "token_type_ids": tensor([[0, 0, ..., 0]])  # 可选
}

# 输出格式
{
    "logits": tensor([[2.3, -1.1]]),  # [正面得分, 负面得分]
    "hidden_states": tuple(...),     # 各层隐藏状态
    "attentions": tuple(...)         # 注意力权重矩阵
}

6、输出解析

# 获取预测结果和标签
predictions = outputs.logits.argmax(dim=-1)
labels = dataset["train"]["label"][:10]

# 打印预测结果和标签
for i, (prediction, label) in enumerate(zip(predictions, labels)):
    prediction_label = "正面评论" if prediction == 1 else "负面评论"
    true_label = "正面评论" if label == 1 else "负面评论"
    print(f"Example {i+1}: Prediction: {prediction_label}, True label: {true_label}")

logits：未归一化的预测分数。模型直接输出的向量，还未进行softmax或者sigmoid
argmax是求数组中最大值的下标

{
    'logits': tensor([[2.3, -1.1],  # 样本1：正面概率更高
                     [-0.5, 3.2]]) # 样本2：负面概率更高
}

最后输出

7、总体代码

# 导入必要的库
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from datasets import load_dataset

# 定义数据集名称和任务类型
dataset_name = "imdb"

# 下载数据集并打乱数据
dataset = load_dataset(dataset_name)
dataset = dataset.shuffle()

# 初始化分词器和模型
model_name = "bert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

# 将文本编码为模型期望的张量格式
inputs = tokenizer(dataset["train"]["text"][:10], padding=True, truncation=True, return_tensors="pt")

# 将编码后的张量输入模型进行预测
outputs = model(**inputs)

# 获取预测结果和标签
predictions = outputs.logits.argmax(dim=-1)
labels = dataset["train"]["label"][:10]

# 打印预测结果和标签
for i, (prediction, label) in enumerate(zip(predictions, labels)):
    prediction_label = "正面评论" if prediction == 1 else "负面评论"
    true_label = "正面评论" if label == 1 else "负面评论"
    print(f"Example {i+1}: Prediction: {prediction_label}, True label: {true_label}")