医学奖励模型设计

医疗AI奖励模型设计与实现

最新推荐文章于 2025-10-25 20:25:37 发布

原创最新推荐文章于 2025-10-25 20:25:37 发布 · 401 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

医疗大模型研发 + 慢病逆转同时被 2 个专栏收录

303 篇文章

订阅专栏

LLM 强化学习：深度诊疗、左右互博

35 篇文章

订阅专栏

医学奖励模型设计

医疗AI奖励模型系统 - 目标手段分析 + 领导式规划
【第一步：确认最终目标】🎯
终极目标拆解

【第二步：层层分解问题】📊
2.1 按流程顺序分解大问题
2.2 从想法到代码的领导式规划
主函数：系统的"领导"

【第三步：模块4问分析】🔍
模块1: PyTorch框架
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法有哪些？
🔧 参数说明示例

模块2: Transformers库
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法
🔧 参数说明示例

模块3: Flask框架
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法
🔧 参数说明示例

模块4: torch.nn（神经网络层）
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法
🔧 参数说明示例

模块5: torch.optim（优化器）
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法
🔧 参数说明示例

模块6: torch.optim.lr_scheduler（学习率调度）
🎯 为什么要导入？
🛠 这个模块是用来做什么的？
📚 最常用的方法
🔧 参数说明示例

【第四步：沉浸式角色扮演分析】🎭
角色1: 我是RewardModel（奖励模型）
🍽 我吃什么（输入）？
🔄 我如何消化（处理）？
💩 我产生什么（输出）？
🚫 我不能做什么（约束）？
🎯 我的目标是什么（追求）？

角色2: 我是compute_reward_loss函数（损失计算器）
🍽 我吃什么（输入）？
🔄 我如何消化（处理）？
💩 我产生什么（输出）？
🚫 我不能做什么（约束）？
🎯 我的目标是什么（追求）？

角色3: 我是train_reward_model函数（训练总监）
🍽 我吃什么（输入）？
🔄 我如何消化（处理）？
💩 我产生什么（输出）？
🚫 我不能做什么（约束）？
🎯 我的目标是什么（追求）？

角色4: 我是RewardModelPredictor（推理工程师）
🍽 我吃什么（输入）？
🔄 我如何消化（处理）？
💩 我产生什么（输出）？
🚫 我不能做什么（约束）？
🎯 我的目标是什么（追求）？

角色5: 我是Flask API（服务员）
🍽 我吃什么（输入）？
🔄 我如何消化（处理）？
💩 我产生什么（输出）？
🚫 我不能做什么（约束）？
🎯 我的目标是什么（追求）？

【代码逻辑主线图】🗺️
主线流程：从数据到部署的完整旅程

【全局逻辑总结】🎯
核心逻辑链
每个角色的核心职责
成功的标准

医疗AI奖励模型系统 - 从思路到代码的完整复现指南
【核心思路解构】🎯
一句话核心思路

【思路分解：粗→中→细】
粗粒度分解（整体思路）
中粒度分解（可理解的步骤）
细粒度分解（可直接写代码）

【输入输出锚定法】🎯
锚点1: 训练数据的输入输出
锚点2: 推理过程的输入输出

【自然语言→伪代码→真代码递进】
案例1: 训练循环的递进实现
第1遍：纯中文描述
第2遍：中英混合
第3遍：伪代码
第4遍：完整真代码

案例2: 数据预处理的递进实现
第1遍：纯中文
第2遍：中英混合
第3遍：伪代码
第4遍：完整代码

【代码模板填空法】📝
模板1: 神经网络模型定义
模板2: 数据处理函数
模板3: Flask API路由

【最小可运行增量法】🔨
从0到1的渐进式构建
版本1: 空框架（能跑但啥也不干）
版本2: 添加模型定义（能创建模型）
版本3: 添加数据准备（能处理数据）
版本4: 添加前向传播（能计算分数）
版本5: 添加损失计算（能训练1步）
版本6: 添加完整训练循环（最终版）

【关键动词映射法】🔑
教程中的动词 → Python代码映射
复杂思路的动词分解
思路："让模型学会区分好答案和差答案"
思路："如果chosen分数比rejected高，就奖励模型"

【心理运行跟踪法】🧠
案例1: 跟踪一个样本的完整流程
案例2: 跟踪损失计算

【边界条件预想法】⚠️
边界1: 空数据情况
边界2: 文本长度极端情况
边界3: 数值稳定性

【逆向验证法】🔄
验证1: 损失函数的逆向检查
验证2: 模型训练的逆向检查
验证3: 数据预处理的逆向检查

【重复识别合并法】🔄
案例1: 重复的tokenization操作
案例2: 重复的模型保存逻辑

【中间变量消除法】✂️
案例1: 多余的临时变量
案例2: 可合并的数据处理

【完整实战：从思路到代码的全流程】🎯
需求：实现一个医疗AI回答的评分器
阶段1: 思路明确（粗粒度）
阶段2: 分解到中等粒度
阶段3: 细粒度分解（可直接写代码）
阶段4: 最小可运行实现（第1版）
阶段5: 添加数据处理（第2版）
阶段6: 添加训练逻辑（第3版）
阶段7: 完整训练循环（最终版）
阶段8: 添加推理接口（完整版）

【核心原则总结】💡
原则1: 不要一步到位
原则2: 每步可验证
原则3: 保持具体
原则4: 接受丑陋

【记忆口诀】📝

医疗AI奖励模型系统 - 目标手段分析 + 领导式规划

【第一步：确认最终目标】🎯

终极目标拆解

最终目标：构建一个能够像人类专家一样评判医疗AI回答质量的自动化系统

目标分解为3个子目标：

┌─────────────────────────────────────────────┐
│ 主目标：医疗AI回答质量自动评估系统          │
├─────────────────────────────────────────────┤
│ 子目标1：训练阶段                           │
│ → 让模型学会区分"好答案"和"差答案"         │
│                                             │
│ 子目标2：推理阶段                           │
│ → 对新的答案自动打分并分级                  │
│                                             │
│ 子目标3：部署阶段                           │
│ → 提供稳定的API服务供其他系统调用          │
└─────────────────────────────────────────────┘

【第二步：层层分解问题】📊

2.1 按流程顺序分解大问题

问题层级树：

L0: 构建医疗AI评分系统
│
├─ L1: 如何准备训练数据？
│   ├─ L2: 数据从哪来？（标注/收集）
│   ├─ L2: 数据格式是什么？（{prompt, chosen, rejected}）
│   ├─ L2: 如何验证数据质量？（长度检查、去重、安全过滤）
│   └─ L2: 如何预处理数据？（文本拼接、Tokenization）
│
├─ L1: 如何训练评分模型？
│   ├─ L2: 用什么模型架构？（BERT + Linear Head）
│   ├─ L2: 用什么损失函数？（Bradley-Terry）
│   ├─ L2: 如何优化参数？（AdamW + CosineAnnealingLR）
│   ├─ L2: 如何防止过拟合？（Dropout + 梯度裁剪 + 早停）
│   └─ L2: 如何验证效果？（验证集准确率）
│
├─ L1: 如何使用模型推理？
│   ├─ L2: 如何加载模型？（load_state_dict）
│   ├─ L2: 如何处理输入？（Tokenization）
│   ├─ L2: 如何计算分数？（model.forward()）
│   └─ L2: 如何解释结果？（分数 → 等级映射）
│
└─ L1: 如何部署为服务？
    ├─ L2: 用什么框架？（Flask）
    ├─ L2: 提供哪些接口？（/score, /compare）
    ├─ L2: 如何处理错误？（try-except + 参数验证）
    └─ L2: 如何监控性能？（RewardModelMonitor）

2.2 从想法到代码的领导式规划

主函数：系统的"领导"

def main():
    """
    ===== 领导的全局规划 =====
    我作为系统总指挥，只管大方向，不管具体实现细节
    
    我的规划分4个大动作：
    1. 让数据部门准备好训练材料
    2. 让模型部门训练好评分模型
    3. 让推理部门封装好预测接口
    4. 让部署部门发布API服务
    
    每个部门具体怎么干，我不管，我只要结果
    """
    
    # 大动作1：数据准备（交给prepare_training_data执行）
    print("📋 步骤1：准备训练数据...")
    training_data = prepare_training_data()
    validation_data = prepare_validation_data()
    
    # 大动作2：模型训练（交给train_reward_model执行）
    print("🎓 步骤2：训练奖励模型...")
    model = build_model()
    trained_model = train_reward_model(model, training_data, validation_data)
    
    # 大动作3：推理封装（交给RewardModelPredictor执行）
    print("🔮 步骤3：封装推理接口...")
    predictor = RewardModelPredictor(trained_model)
    test_inference(predictor)  # 测试推理功能
    
    # 大动作4：API部署（交给deploy_api执行）
    print("🚀 步骤4：部署API服务...")
    deploy_api(predictor)
    
    print("✅ 系统构建完成！")

领导的特点：

✅ 只关注做什么（What），不关注怎么做（How）
✅ 只关注顺序（先数据后训练后部署），不关注细节
✅ 每个步骤都是一个清晰的动词短语（准备、训练、封装、部署）
✅ 通过函数调用把具体工作分配给"小弟"

【第三步：模块4问分析】🔍

模块1: PyTorch框架

🎯 为什么要导入？

因为需要构建神经网络模型，进行前向传播、反向传播和参数优化。

🛠 这个模块是用来做什么的？

PyTorch是深度学习框架，提供：

张量计算（类似Numpy但支持GPU）
自动微分（自动计算梯度）
神经网络构建（nn.Module）
优化器（SGD, Adam等）

📚 最常用的方法有哪些？

方法	功能	使用场景
`torch.tensor()`	创建张量	把Python列表转为张量
`tensor.to(device)`	移动到GPU/CPU	利用GPU加速
`torch.no_grad()`	关闭梯度计算	推理阶段省显存
`nn.Module`	神经网络基类	定义自己的模型
`loss.backward()`	反向传播	计算梯度
`optimizer.step()`	更新参数	应用梯度下降

🔧 参数说明示例

# 创建张量
tensor = torch.tensor(
    data=[1, 2, 3],           # 数据（列表/数组）
    dtype=torch.float32,      # 数据类型（float/int/long）
    device='cuda',            # 设备（'cpu' 或 'cuda'）
    requires_grad=True        # 是否需要计算梯度
)

# 优化器
optimizer = torch.optim.AdamW(
    params=model.parameters(),  # 要优化的参数
    lr=1e-5,                    # 学习率
    weight_decay=0.01,          # L2正则化系数
    betas=(0.9, 0.999)          # 动量系数
)

模块2: Transformers库

🎯 为什么要导入？

因为需要使用预训练的BERT模型和Tokenizer，避免从头训练语言模型。

🛠 这个模块是用来做什么的？

Hugging Face Transformers提供：

预训练模型（BERT, GPT, RoBERTa等）
Tokenizer（文本转Token ID）
模型加载和保存工具

📚 最常用的方法

方法	功能	使用场景
`AutoModel.from_pretrained()`	加载预训练模型	获取BERT编码器
`AutoTokenizer.from_pretrained()`	加载分词器	文本预处理
`tokenizer(text, ...)`	文本编码	转为模型输入格式
`model.save_pretrained()`	保存模型	持久化训练结果

🔧 参数说明示例

# 加载模型
model = AutoModel.from_pretrained(
    pretrained_model_name_or_path="bert-base-chinese",  # 模型名称或本地路径
    cache_dir="./cache",                                 # 缓存目录
    output_hidden_states=True,                           # 是否输出所有层的隐藏状态
    output_attentions=False                              # 是否输出注意力权重
)

# Tokenizer
tokenizer = AutoTokenizer.from_pretrained(
    "bert-base-chinese",
    use_fast=True  # 是否使用快速版本（Rust实现）
)

# 文本编码
inputs = tokenizer(
    text="用户问题和回答",           # 输入文本
    max_length=512,                   # 最大长度
    padding="max_length",             # 填充策略（'max_length', 'longest', True, False）
    truncation=True,                  # 是否截断
    return_tensors="pt",              # 返回格式（'pt'=PyTorch, 'tf'=TensorFlow, 'np'=Numpy）
    return_attention_mask=True        # 是否返回attention mask
)

模块3: Flask框架

🎯 为什么要导入？

因为需要把模型封装成Web API，让其他系统通过HTTP请求调用。

🛠 这个模块是用来做什么的？

Flask是轻量级Web框架，提供：

路由管理（URL → 函数映射）
请求处理（获取POST/GET参数）
响应生成（返回JSON）

📚 最常用的方法

方法	功能	使用场景
`Flask(__name__)`	创建应用	初始化Flask
`@app.route()`	定义路由	绑定URL和函数
`request.json`	获取JSON数据	解析POST请求体
`jsonify()`	生成JSON响应	返回结构化数据
`app.run()`	启动服务	监听端口

🔧 参数说明示例

from flask import Flask, request, jsonify

# 创建应用
app = Flask(__name__)

# 定义路由
@app.route(
    rule='/score',              # URL路径
    methods=['POST', 'GET'],    # 允许的HTTP方法
    endpoint='score_response'   # 端点名称（可选）
)
def score_response():
    # 获取请求数据
    data = request.json         # POST的JSON数据
    # data = request.args       # GET的查询参数
    
    # 处理逻辑
    result = {"score": 2.5}
    
    # 返回响应
    return jsonify(result)      # 自动转为JSON格式

# 启动服务
app.run(
    host='0.0.0.0',             # 监听地址（'0.0.0.0'=所有接口，'127.0.0.1'=本地）
    port=8080,                  # 端口号
    debug=True,                 # 调试模式（自动重载）
    threaded=True               # 多线程模式
)

模块4: torch.nn（神经网络层）

🎯 为什么要导入？

因为需要构建神经网络的各个层（Linear, Dropout等）。

🛠 这个模块是用来做什么的？

torch.nn提供神经网络的基础组件：

层（Linear, Conv2d, LSTM等）
激活函数（ReLU, Sigmoid等）
损失函数（CrossEntropyLoss, MSELoss等）
容器（Sequential, ModuleList等）

📚 最常用的方法

层类型	功能	使用场景
`nn.Linear()`	全连接层	分类头、回归
`nn.Dropout()`	随机失活	防止过拟合
`nn.Module`	模型基类	自定义网络
`nn.CrossEntropyLoss()`	交叉熵损失	分类任务

🔧 参数说明示例

import torch.nn as nn

# Linear层（全连接）
linear = nn.Linear(
    in_features=768,      # 输入维度
    out_features=1,       # 输出维度
    bias=True             # 是否使用偏置
)

# Dropout层
dropout = nn.Dropout(
    p=0.1,                # 失活概率（10%的神经元被关闭）
    inplace=False         # 是否原地操作
)

# 自定义模型
class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()  # 必须调用父类初始化
        self.fc1 = nn.Linear(768, 256)
        self.fc2 = nn.Linear(256, 1)
    
    def forward(self, x):
        x = self.fc1(x)
        x = self.fc2(x)
        return x

模块5: torch.optim（优化器）

🎯 为什么要导入？

因为需要优化器来更新模型参数（应用梯度下降）。

🛠 这个模块是用来做什么的？

torch.optim提供各种优化算法：

SGD（随机梯度下降）
Adam（自适应学习率）
AdamW（带权重衰减的Adam）

📚 最常用的方法

优化器	特点	适用场景
`optim.SGD()`	经典算法	简单任务
`optim.Adam()`	自适应学习率	通用任务
`optim.AdamW()`	Adam + L2正则化	BERT微调推荐

🔧 参数说明示例

import torch.optim as optim

# AdamW优化器
optimizer = optim.AdamW(
    params=model.parameters(),    # 要优化的参数（必须）
    lr=1e-5,                      # 学习率（默认1e-3）
    betas=(0.9, 0.999),           # 一阶和二阶动量系数
    eps=1e-8,                     # 数值稳定项
    weight_decay=0.01,            # L2正则化系数（权重衰减）
    amsgrad=False                 # 是否使用AMSGrad变种
)

# 使用
loss.backward()           # 计算梯度
optimizer.step()          # 更新参数
optimizer.zero_grad()     # 清空梯度

模块6: torch.optim.lr_scheduler（学习率调度）

🎯 为什么要导入？

因为需要动态调整学习率，让训练更稳定、收敛更快。

🛠 这个模块是用来做什么的？

lr_scheduler提供学习率衰减策略：

StepLR（每N步衰减）
CosineAnnealingLR（余弦退火）
ReduceLROnPlateau（性能不提升时衰减）

📚 最常用的方法

调度器	策略	使用场景
`CosineAnnealingLR`	余弦曲线衰减	Transformer训练
`StepLR`	阶梯式衰减	简单任务
`ReduceLROnPlateau`	性能驱动衰减	过拟合风险高的任务

🔧 参数说明示例

from torch.optim import lr_scheduler

# 余弦退火调度器
scheduler = lr_scheduler.CosineAnnealingLR(
    optimizer=optimizer,          # 关联的优化器
    T_max=num_epochs,             # 周期长度（通常设为总epoch数）
    eta_min=0,                    # 最小学习率
    last_epoch=-1                 # 上次epoch（用于恢复训练）
)

# 使用
for epoch in range(num_epochs):
    train(...)
    scheduler.step()              # 更新学习率（每个epoch结束后调用）
    
    # 查看当前学习率
    current_lr = scheduler.get_last_lr()[0]
    print(f"Learning rate: {current_lr:.2e}")

【第四步：沉浸式角色扮演分析】🎭

角色1: 我是RewardModel（奖励模型）

class RewardModel(nn.Module):
    """
    角色扮演：我是一个奖励模型
    """
    def __init__(self, base_model_name="bert-base-chinese"):
        super().__init__()
        self.base_model = AutoModel.from_pretrained(base_model_name)
        self.score_head = nn.Linear(768, 1)
        self.dropout = nn.Dropout(0.1)

🍽 我吃什么（输入）？

我接受两样东西：
1. input_ids: 一串数字（Token ID），形状是(batch_size, seq_len)
   例如：tensor([[101, 4510, 2031, ..., 102]])
   
2. attention_mask: 标记哪些是真实内容，哪些是填充
   例如：tensor([[1, 1, 1, ..., 0, 0, 0]])

🔄 我如何消化（处理）？

我的消化过程分4步：

Step 1: BERT编码（理解文本语义）
我把input_ids喂给BERT，BERT会返回每个token的向量表示
outputs = self.base_model(input_ids, attention_mask)
→ 得到last_hidden_state: (batch, seq_len, 768)

Step 2: 提取句子表示（浓缩精华）
我不需要每个token的向量，只要整句话的意思
我取第一个token（[CLS]）的向量作为整句的表示
sentence_embedding = outputs.last_hidden_state[:, 0, :]
→ 得到: (batch, 768)

Step 3: 防止过拟合（加点随机性）
我用Dropout随机关闭10%的神经元
sentence_embedding = self.dropout(sentence_embedding)

Step 4: 打分（最终判断）
我把768维向量压缩成1个数字（分数）
score = self.score_head(sentence_embedding)
→ 得到: (batch, 1)

💩 我产生什么（输出）？

我输出一个标量分数（或一批分数）
例如：tensor([2.5]) 或 tensor([2.5, -1.2, 0.8, ...])

这个分数的含义：
- 正数：好答案（越大越好）
- 负数：差答案（越小越差）
- 0附近：中等答案

🚫 我不能做什么（约束）？

1. 我不能处理变长输入
   → 必须padding到固定长度（如512）

2. 我不能处理超长文本
   → 超过512个token会被截断

3. 我不能处理没见过的语言
   → BERT只在中文语料上训练过

4. 我训练时需要梯度，推理时不需要
   → 训练：model.train()
   → 推理：model.eval() + torch.no_grad()

🎯 我的目标是什么（追求）？

我的终极目标：
让chosen（好答案）的分数 > rejected（差答案）的分数

具体来说：
- 如果输入是好答案，我要输出高分（如2.5）
- 如果输入是差答案，我要输出低分（如-1.2）
- 通过训练，我逐渐学会这种判断能力

角色2: 我是compute_reward_loss函数（损失计算器）

def compute_reward_loss(chosen_rewards, rejected_rewards):
    """
    角色扮演：我是损失函数
    """
    reward_diff = chosen_rewards - rejected_rewards
    loss = -torch.log(torch.sigmoid(reward_diff))
    return loss.mean()

🍽 我吃什么（输入）？

我吃两批分数：
1. chosen_rewards: 好答案的分数，形状(batch_size,)
   例如：tensor([2.5, 1.8, 3.2])

2. rejected_rewards: 差答案的分数，形状(batch_size,)
   例如：tensor([-1.2, 0.5, -0.8])

🔄 我如何消化（处理）？

我的计算逻辑（Bradley-Terry模型）：

Step 1: 计算分数差
reward_diff = chosen_rewards - rejected_rewards
例如：[2.5-(-1.2), 1.8-0.5, 3.2-(-0.8)] = [3.7, 1.3, 4.0]

Step 2: 转换为概率
sigmoid(diff) = P(chosen > rejected)
例如：sigmoid([3.7, 1.3, 4.0]) = [0.976, 0.786, 0.982]

解释：
- 0.976 表示我有97.6%把握认为chosen比rejected好
- 如果diff=0，sigmoid=0.5，说明我完全分不清好坏

Step 3: 计算负对数似然
-log(sigmoid(diff))
例如：-log([0.976, 0.786, 0.982]) = [0.024, 0.241, 0.018]

解释：
- 当我非常确定时（0.976），损失很小（0.024）→ 奖励
- 当我不确定时（0.786），损失较大（0.241）→ 惩罚

Step 4: 求平均
loss = mean([0.024, 0.241, 0.018]) = 0.094

💩 我产生什么（输出）？

我输出一个标量损失值
例如：tensor(0.094)

这个损失的含义：
- 越小（接近0）：模型表现好，能准确区分好坏答案
- 越大（接近∞）：模型表现差，甚至可能预测反了

🚫 我不能做什么（约束）？

1. 我不能处理chosen和rejected形状不一致的情况
   → 必须保证两者shape相同

2. 我不能处理极端分数差
   → 如果diff太大（如100），sigmoid会溢出
   → 需要clipping: torch.clamp(diff, -10, 10)

3. 我不能用于其他类型的任务
   → 我专门为偏好学习设计，不适合分类或回归

🎯 我的目标是什么（追求）？

我的目标：
让模型学会"好答案分数 > 差答案分数"

具体策略：
- 如果模型预测对了（chosen > rejected），我给小损失（奖励）
- 如果模型预测错了（chosen < rejected），我给大损失（惩罚）
- 通过反向传播，模型参数会调整，逐渐学会正确判断

角色3: 我是train_reward_model函数（训练总监）

def train_reward_model(model, train_loader, val_loader, num_epochs=3):
    """
    角色扮演：我是训练总监
    """
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
    scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)
    best_val_accuracy = 0.0
    
    for epoch in range(num_epochs):
        # 训练阶段
        model.train()
        for batch in train_loader:
            optimizer.zero_grad()
            chosen_rewards = model(batch["chosen_input_ids"], ...)
            rejected_rewards = model(batch["rejected_input_ids"], ...)
            loss = compute_reward_loss(chosen_rewards, rejected_rewards)
            loss.backward()
            optimizer.step()
        
        # 验证阶段
        val_accuracy = evaluate_model(model, val_loader)
        scheduler.step()
        
        # 保存最佳模型
        if val_accuracy > best_val_accuracy:
            best_val_accuracy = val_accuracy
            torch.save(model.state_dict(), "best_model.pth")
    
    return model

🍽 我吃什么（输入）？

我需要4样东西：
1. model: 一个未训练的RewardModel实例
2. train_loader: 训练数据迭代器，每次吐一个batch
3. val_loader: 验证数据迭代器
4. num_epochs: 训练轮数（默认3）

🔄 我如何消化（处理）？

我是一个严格的训练总监，每天（epoch）的工作流程：

早上（训练阶段）：
1. 检查模型状态：model.train()（开启Dropout）
2. 遍历所有训练数据：for batch in train_loader
3. 对每个batch执行4步：
   a. 清空上次的梯度：optimizer.zero_grad()
   b. 前向传播：计算chosen和rejected的分数
   c. 计算损失：loss = compute_reward_loss(...)
   d. 反向传播并更新：loss.backward() → optimizer.step()

下午（验证阶段）：
1. 切换评估模式：model.eval()
2. 在验证集上测试：val_accuracy = evaluate_model(...)
3. 调整学习率：scheduler.step()

晚上（复盘总结）：
1. 检查今天的表现：if val_accuracy > best_val_accuracy
2. 如果表现更好，保存模型：torch.save(...)
3. 打印训练日志：print(f"Epoch {epoch}: ...")

💩 我产生什么（输出）？

我最终产出3样东西：
1. trained_model: 训练好的模型（权重已更新）
2. best_model.pth: 保存的模型文件（验证集最佳）
3. 副作用：打印的训练日志

训练日志示例：
Epoch 1/3: Loss=0.452, Val_Acc=0.745
Epoch 2/3: Loss=0.214, Val_Acc=0.823
Epoch 3/3: Loss=0.123, Val_Acc=0.816

🚫 我不能做什么（约束）？

1. 我不能在没有数据的情况下训练
   → 如果train_loader为空，训练循环直接跳过

2. 我不能保证收敛
   → 如果学习率太大或数据太少，可能不收敛

3. 我不能处理显存溢出
   → 如果batch_size太大，会OOM错误

4. 我不能自动调整超参数
   → lr、num_epochs、batch_size需要人工指定

🎯 我的目标是什么（追求）？

我的终极目标：
训练出一个能准确区分好坏答案的模型

成功的标准：
1. 训练损失持续下降（从0.5 → 0.1）
2. 验证准确率持续上升（从70% → 85%+）
3. 验证准确率不再上升时停止（防止过拟合）

我通过以下手段实现目标：
- 梯度下降：optimizer.step()
- 学习率衰减：scheduler.step()
- 模型保存：只保留最佳版本
- 早停法：验证集性能不提升就停止

角色4: 我是RewardModelPredictor（推理工程师）

class RewardModelPredictor:
    """
    角色扮演：我是推理工程师
    """
    def __init__(self, model_path):
        self.model = RewardModel()
        self.model.load_state_dict(torch.load(model_path))
        self.model.eval()
        self.tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    
    def score_response(self, prompt, response):
        text = f"用户: {prompt}\n助手: {response}"
        inputs = self.tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
        with torch.no_grad():
            score = self.model(inputs.input_ids, inputs.attention_mask)
        return score.item()

🍽 我吃什么（输入）？

我接受两个字符串：
1. prompt: 用户问题（例如："孩子发烧39度？"）
2. response: AI回答（例如："建议立即就医..."）

🔄 我如何消化（处理）？

我的推理流程（4步法）：

Step 1: 文本拼接
text = f"用户: {prompt}\n助手: {response}"
→ "用户: 孩子发烧39度？\n助手: 建议立即就医..."

Step 2: Tokenization（文本转数字）
inputs = self.tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
→ {
    "input_ids": tensor([[101, 4510, ..., 102]]),
    "attention_mask": tensor([[1, 1, ..., 1]])
  }

Step 3: 模型推理（关闭梯度）
with torch.no_grad():  # 省显存，加速推理
    score = self.model(inputs.input_ids, inputs.attention_mask)
→ tensor([2.5])

Step 4: 转为Python数字
score.item()
→ 2.5

💩 我产生什么（输出）？

我输出一个浮点数分数
例如：2.5

分数的含义：
- 2.5：优秀答案
- 1.3：良好答案
- 0.5：一般答案
- -0.8：较差答案

🚫 我不能做什么（约束）？

1. 我不能处理训练时没见过的语言
   → BERT只支持中文

2. 我不能处理超长文本
   → 超过512 tokens会被截断

3. 我不能保证100%准确
   → 模型有误判的可能

4. 我不能并发推理（单线程）
   → 如果需要高并发，要用批量推理或多进程

🎯 我的目标是什么（追求）？

我的目标：
快速、准确地为新答案打分

我追求的品质：
1. 速度快：<500ms每次推理
2. 准确性高：误判率<10%
3. 稳定性好：不崩溃、不卡死
4. 易用性强：接口简单，一行代码搞定

角色5: 我是Flask API（服务员）

@app.route('/score', methods=['POST'])
def score_response():
    """
    角色扮演：我是一个服务员
    """
    try:
        # 接单
        data = request.json
        prompt = data.get('prompt')
        response = data.get('response')
        
        # 验证订单
        if not prompt or not response:
            return jsonify({"error": "缺少必要参数"}), 400
        
        # 交给后厨（推理）
        score = reward_model.score_response(prompt, response)
        level = get_quality_level(score)
        
        # 上菜（返回结果）
        return jsonify({
            "score": round(score, 3),
            "level": level,
            "status": "success"
        })
    
    except Exception as e:
        # 道歉
        return jsonify({"error": str(e)}), 500

🍽 我吃什么（输入）？

我接受HTTP POST请求，包含JSON数据：
{
    "prompt": "孩子发烧39度？",
    "response": "建议立即就医..."
}

🔄 我如何消化（处理）？

我的服务流程（餐厅隐喻）：

Step 1: 接单（解析请求）
data = request.json
→ 从HTTP请求体中提取JSON数据

Step 2: 验证订单（参数检查）
if not prompt or not response:
    return "缺少必要参数", 400
→ 确保顾客提供了所有必需信息

Step 3: 交给后厨（调用推理模型）
score = reward_model.score_response(prompt, response)
→ 模型计算分数

Step 4: 装盘（格式化结果）
level = get_quality_level(score)
result = {
    "score": round(score, 3),
    "level": level,
    "status": "success"
}

Step 5: 上菜（返回响应）
return jsonify(result)
→ 转为JSON格式的HTTP响应

💩 我产生什么（输出）？

我输出HTTP响应（JSON格式）：

成功情况：
HTTP 200 OK
{
    "score": 2.5,
    "level": "优秀",
    "status": "success"
}

失败情况：
HTTP 400 Bad Request
{
    "error": "缺少必要参数"
}

或

HTTP 500 Internal Server Error
{
    "error": "模型推理失败: CUDA out of memory"
}

🚫 我不能做什么（约束）？

1. 我不能处理没有prompt或response的请求
   → 返回400错误

2. 我不能保证推理一定成功
   → 捕获异常，返回500错误

3. 我不能处理高并发（默认单线程）
   → 需要用Gunicorn等WSGI服务器

4. 我不能自动重启
   → 如果崩溃，需要人工重启服务

🎯 我的目标是什么（追求）？

我的目标：
提供稳定、快速、友好的API服务

我追求的服务品质：
1. 可用性：7x24小时不宕机
2. 响应速度：<1秒返回结果
3. 错误处理：友好的错误提示
4. 文档清晰：让用户知道如何调用

【代码逻辑主线图】🗺️

主线流程：从数据到部署的完整旅程

┌────────────────────────────────────────────────────────────┐
│ 第一幕：数据准备（Data Preparation）                       │
├────────────────────────────────────────────────────────────┤
│                                                            │
│ 角色：prepare_training_data()                             │
│ 我吃：原始标注数据（Python列表/CSV/Excel）                 │
│ 我做：验证质量 → 去重 → 安全过滤 → 格式标准化             │
│ 我吐：标准训练样本 [{prompt, chosen, rejected}, ...]      │
│                                                            │
│         ↓                                                  │
│                                                            │
│ 角色：preprocess_data()                                   │
│ 我吃：标准训练样本                                         │
│ 我做：文本拼接 → Tokenization → Padding/Truncation        │
│ 我吐：模型可用的张量 {input_ids, attention_mask}          │
│                                                            │
└────────────────────────────────────────────────────────────┘
                         ↓
┌────────────────────────────────────────────────────────────┐
│ 第二幕：模型训练（Model Training）                         │
├────────────────────────────────────────────────────────────┤
│                                                            │
│ 角色：RewardModel                                         │
│ 我吃：张量 {input_ids, attention_mask}                    │
│ 我做：BERT编码 → 提取[CLS] → Dropout → Linear打分         │
│ 我吐：标量分数 tensor([2.5])                              │
│                                                            │
│         ↓                                                  │
│                                                            │
│ 角色：compute_reward_loss()                               │
│ 我吃：chosen_score=2.5, rejected_score=-1.2               │
│ 我做：diff=3.7 → sigmoid(3.7)=0.976 → -log(0.976)=0.024  │
│ 我吐：损失值 tensor(0.024)                                │
│                                                            │
│         ↓                                                  │
│                                                            │
│ 角色：train_reward_model()（训练总监）                    │
│ 我吃：model, train_loader, val_loader                     │
│ 我做：                                                     │
│   for epoch in [1, 2, 3]:                                 │
│     for batch in train_loader:                            │
│       前向传播 → 计算loss → 反向传播 → 更新参数           │
│     验证集评估 → 如果更好则保存模型                        │
│ 我吐：trained_model + best_model.pth文件                  │
│                                                            │
└────────────────────────────────────────────────────────────┘
                         ↓
┌────────────────────────────────────────────────────────────┐
│ 第三幕：推理封装（Inference Wrapping）                     │
├────────────────────────────────────────────────────────────┤
│                                                            │
│ 角色：RewardModelPredictor                                │
│ 我吃：prompt="孩子发烧39度？", response="建议立即就医..."  │
│ 我做：                                                     │
│   1. 拼接文本 → "用户: 孩子发烧39度？\n助手: 建议..."       │
│   2. Tokenization → {input_ids, attention_mask}           │
│   3. 模型推理 → score = model.forward()                   │
│   4. 转为Python数字 → score.item()                        │
│ 我吐：浮点数分数 2.5                                       │
│                                                            │
└────────────────────────────────────────────────────────────┘
                         ↓
┌────────────────────────────────────────────────────────────┐
│ 第四幕：API部署（Service Deployment）                      │
├────────────────────────────────────────────────────────────┤
│                                                            │
│ 角色：Flask /score 接口                                   │
│ 我吃：HTTP POST请求                                        │
│   {                                                        │
│     "prompt": "孩子发烧39度？",                            │
│     "response": "建议立即就医..."                          │
│   }                                                        │
│                                                            │
│ 我做：                                                     │
│   1. 解析JSON → prompt, response                          │
│   2. 参数验证 → 检查非空                                   │
│   3. 调用predictor.score_response()                       │
│   4. 分数映射 → 2.5 → "优秀"                               │
│   5. 构造JSON响应                                          │
│                                                            │
│ 我吐：HTTP响应                                             │
│   {                                                        │
│     "score": 2.5,                                         │
│     "level": "优秀",                                       │
│     "status": "success"                                    │
│   }                                                        │
│                                                            │
└────────────────────────────────────────────────────────────┘

【全局逻辑总结】🎯

核心逻辑链

原始想法：让AI学会评判答案质量
    ↓
抽象为数学问题：P(chosen > rejected) = sigmoid(score_diff)
    ↓
设计模型架构：BERT编码器 + Linear分类头
    ↓
定义训练目标：最大化P(chosen > rejected)
    ↓
选择损失函数：Bradley-Terry负对数似然
    ↓
构建训练循环：数据加载 → 前向 → 损失 → 反向 → 优化
    ↓
封装推理接口：RewardModelPredictor
    ↓
部署为服务：Flask API
    ↓
最终产品：可通过HTTP调用的评分服务

每个角色的核心职责

角色	我是谁	我的输入	我的输出	我的目标
RewardModel	评分专家	Token IDs	标量分数	准确区分好坏答案
compute_reward_loss	教练	两个分数	损失值	指导模型学习方向
train_reward_model	训练总监	模型+数据	训练好的模型	让模型达到最佳性能
RewardModelPredictor	推理工程师	问题+答案	质量分数	快速准确打分
Flask API	服务员	HTTP请求	JSON响应	提供稳定服务

成功的标准

数据准备成功 ✅
├─ 至少100个高质量标注样本
├─ 数据通过质量检查（无重复、无错误）
└─ Tokenization正常（无截断警告）

模型训练成功 ✅
├─ 训练损失持续下降（0.5 → 0.1）
├─ 验证准确率 > 80%
└─ 测试样本预测正确

推理封装成功 ✅
├─ 能正确加载模型
├─ 推理速度 < 500ms
└─ 分数范围合理（-5到5之间）

API部署成功 ✅
├─ 服务正常启动（端口8080）
├─ 能处理正常请求
├─ 错误处理友好
└─ 响应格式规范

🎉 完整分析完成！

现在你对医疗AI奖励模型系统有了角色级的深刻理解：

✅ 知道每个模块"我是谁、我吃什么、我做什么、我吐什么"
✅ 理解整个系统的逻辑主线和数据流动
✅ 掌握从目标到实现的层层分解方法
✅ 能用"领导式思维"规划代码结构

医疗AI奖励模型系统 - 从思路到代码的完整复现指南

【核心思路解构】🎯

一句话核心思路

“训练一个AI评委，让它学会像人类专家一样，通过对比好答案和差答案，给新答案打分”

【思路分解：粗→中→细】

粗粒度分解（整体思路）

1. 准备训练数据（好答案 vs 差答案）
2. 训练评分模型
3. 用模型给新答案打分

中粒度分解（可理解的步骤）

1. 数据准备
   - 收集问题和对应的答案对
   - 标注哪个是好答案，哪个是差答案
   - 检查数据质量

2. 模型训练
   - 加载预训练的BERT模型
   - 让模型看好答案和差答案
   - 调整模型参数，让它能区分好坏

3. 模型使用
   - 给新问题和答案
   - 模型计算分数
   - 返回质量评级

细粒度分解（可直接写代码）

阶段1: 数据准备
1.1 定义数据格式 → 字典: {prompt, chosen, rejected}
1.2 读取数据源 → 从Python列表/CSV/Excel
1.3 文本拼接 → f"用户: {prompt}\n助手: {response}"
1.4 分词处理 → tokenizer(text, max_length=512)
1.5 质量检查 → 长度验证、去重、安全检测

阶段2: 模型构建
2.1 导入BERT → AutoModel.from_pretrained()
2.2 添加分类头 → nn.Linear(768, 1)
2.3 添加Dropout → nn.Dropout(0.1)
2.4 定义前向传播 → 提取[CLS] token或最后token
2.5 计算奖励分数 → score_head(embeddings)

阶段3: 损失计算
3.1 获取chosen和rejected分数 → model(chosen), model(rejected)
3.2 计算分数差 → diff = chosen_score - rejected_score
3.3 计算概率 → prob = sigmoid(diff)
3.4 计算损失 → loss = -log(prob)

阶段4: 训练循环
4.1 初始化优化器 → AdamW(params, lr=1e-5)
4.2 遍历每个epoch
4.3 遍历每个batch
4.4 前向传播 → 获取分数
4.5 计算损失 → Bradley-Terry公式
4.6 反向传播 → loss.backward()
4.7 梯度裁剪 → clip_grad_norm()
4.8 更新参数 → optimizer.step()
4.9 清空梯度 → optimizer.zero_grad()

阶段5: 验证保存
5.1 切换评估模式 → model.eval()
5.2 计算验证准确率 → 统计chosen > rejected的比例
5.3 比较历史最佳 → if val_acc > best_acc
5.4 保存模型 → torch.save(state_dict, path)

阶段6: 推理部署
6.1 加载模型 → model.load_state_dict()
6.2 构造输入 → tokenizer(prompt + response)
6.3 模型推理 → with torch.no_grad(): score = model()
6.4 返回结果 → {"score": score, "level": level}

【输入输出锚定法】🎯

锚点1: 训练数据的输入输出

起点锚（原始数据）：

training_examples = [
    {
        "prompt": "孩子发烧39度？",
        "chosen": "建议立即就医检查...",
        "rejected": "没事，忍忍就好了"
    }
]

中间锚（处理后的张量）：

{
    "chosen_input_ids": tensor([[101, 2345, ..., 102]]),      # (batch, 512)
    "chosen_attention_mask": tensor([[1, 1, ..., 1]]),
    "rejected_input_ids": tensor([[101, 2456, ..., 102]]),
    "rejected_attention_mask": tensor([[1, 1, ..., 1]])
}

终点锚（训练后的模型）：

trained_model.pth  # 保存的模型权重文件
best_val_accuracy = 0.85  # 验证集准确率85%

锚点2: 推理过程的输入输出

起点锚（推理请求）：

prompt = "孩子发烧39度？"
response = "建议立即就医检查，高烧39度需要专业医生诊治..."

中间锚（模型计算）：

# 文本 → Token IDs
input_ids = tensor([101, 2345, ..., 102])

# BERT编码 → 向量
sentence_embedding = tensor([0.23, -0.45, ..., 0.67])  # (768,)

# 分类头 → 标量分数
raw_score = tensor([2.5])

终点锚（最终结果）：

{
    "score": 2.5,
    "level": "优秀",
    "status": "success"
}

【自然语言→伪代码→真代码递进】

案例1: 训练循环的递进实现

第1遍：纯中文描述

重复多轮训练：
  遍历所有训练数据：
    让模型看好答案和差答案
    计算两个分数的差异
    如果好答案分数更高，奖励模型
    如果差答案分数更高，惩罚模型
    更新模型参数
  在验证集上测试表现
  如果表现更好就保存模型

第2遍：中英混合

for epoch in range(训练轮数):
    for batch in train_loader:
        chosen分数 = model(好答案)
        rejected分数 = model(差答案)
        分数差 = chosen分数 - rejected分数
        损失 = -log(sigmoid(分数差))
        损失.backward()
        optimizer.step()
    验证准确率 = evaluate(model, val_loader)
    if 验证准确率 > best准确率:
        保存模型

第3遍：伪代码

for epoch in range(num_epochs):
    for batch in train_loader:
        chosen_rewards = model(batch["chosen_input_ids"], ...)
        rejected_rewards = model(batch["rejected_input_ids"], ...)
        reward_diff = chosen_rewards - rejected_rewards
        loss = -torch.log(torch.sigmoid(reward_diff)).mean()
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
    
    val_accuracy = evaluate(model, val_loader)
    if val_accuracy > best_val_accuracy:
        torch.save(model.state_dict(), "best_model.pth")

第4遍：完整真代码

def train_reward_model(model, train_loader, val_loader, num_epochs=3):
    """训练奖励模型的完整流程"""
    
    # 初始化组件
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5, weight_decay=0.01)
    scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)
    best_val_accuracy = 0.0
    
    for epoch in range(num_epochs):
        # 训练阶段
        model.train()
        train_losses = []
        
        for batch in train_loader:
            # 前向传播
            chosen_rewards = model(
                batch["chosen_input_ids"],
                batch["chosen_attention_mask"]
            )
            rejected_rewards = model(
                batch["rejected_input_ids"],
                batch["rejected_attention_mask"]
            )
            
            # 计算损失
            loss = compute_reward_loss(chosen_rewards, rejected_rewards)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
            optimizer.step()
            
            train_losses.append(loss.item())
        
        # 验证阶段
        val_accuracy = evaluate_model(model, val_loader)
        
        # 学习率更新
        scheduler.step()
        
        # 保存最佳模型
        if val_accuracy > best_val_accuracy:
            best_val_accuracy = val_accuracy
            torch.save(model.state_dict(), "best_reward_model.pth")
            print(f"✅ 保存最佳模型 (准确率: {val_accuracy:.4f})")
        
        # 打印信息
        avg_loss = sum(train_losses) / len(train_losses)
        print(f"Epoch {epoch+1}: Loss={avg_loss:.4f}, Val_Acc={val_accuracy:.4f}")
    
    return model

案例2: 数据预处理的递进实现

第1遍：纯中文

把问题和答案拼成一句话
用BERT分词器把句子变成数字
如果太长就截断，太短就填充
返回处理好的数据

第2遍：中英混合

def preprocess_data(样本):
    文本 = f"用户: {样本['prompt']}\n助手: {样本['response']}"
    token结果 = tokenizer(文本, max_length=512, padding=True, truncation=True)
    return token结果

第3遍：伪代码

def preprocess_data(data_item, tokenizer, max_length=512):
    # 构造完整文本
    chosen_text = f"用户: {data_item['prompt']}\n助手: {data_item['chosen']}"
    rejected_text = f"用户: {data_item['prompt']}\n助手: {data_item['rejected']}"
    
    # 分词编码
    chosen_encoding = tokenizer(chosen_text, max_length, padding, truncation)
    rejected_encoding = tokenizer(rejected_text, max_length, padding, truncation)
    
    return {
        "chosen_input_ids": chosen_encoding.input_ids,
        "chosen_attention_mask": chosen_encoding.attention_mask,
        "rejected_input_ids": rejected_encoding.input_ids,
        "rejected_attention_mask": rejected_encoding.attention_mask
    }

第4遍：完整代码

def preprocess_data(data_item, tokenizer, max_length=512):
    """
    将原始数据转换为模型可接受的格式
    
    Args:
        data_item: 字典，包含prompt, chosen, rejected
        tokenizer: BERT tokenizer实例
        max_length: 最大序列长度
    
    Returns:
        处理后的张量字典
    """
    prompt = data_item["prompt"]
    chosen = data_item["chosen"]
    rejected = data_item["rejected"]
    
    # 构造完整对话文本
    chosen_text = f"用户: {prompt}\n助手: {chosen}"
    rejected_text = f"用户: {prompt}\n助手: {rejected}"
    
    # Tokenization
    chosen_encoding = tokenizer(
        chosen_text,
        max_length=max_length,
        padding="max_length",
        truncation=True,
        return_tensors="pt"
    )
    
    rejected_encoding = tokenizer(
        rejected_text,
        max_length=max_length,
        padding="max_length",
        truncation=True,
        return_tensors="pt"
    )
    
    return {
        "chosen_input_ids": chosen_encoding.input_ids,
        "chosen_attention_mask": chosen_encoding.attention_mask,
        "rejected_input_ids": rejected_encoding.input_ids,
        "rejected_attention_mask": rejected_encoding.attention_mask
    }

【代码模板填空法】📝

模板1: 神经网络模型定义

# 模板框架
class ___Model(nn.Module):
    def __init__(self, ___):
        super().__init__()
        self.___ = ___  # 定义层
        
    def forward(self, ___):
        ___ = ___  # 前向计算
        return ___

# 填充后
class RewardModel(nn.Module):
    def __init__(self, base_model_name="bert-base-chinese"):
        super().__init__()
        self.base_model = AutoModel.from_pretrained(base_model_name)
        self.score_head = nn.Linear(768, 1)
        self.dropout = nn.Dropout(0.1)
        
    def forward(self, input_ids, attention_mask):
        outputs = self.base_model(input_ids, attention_mask)
        sentence_embedding = outputs.last_hidden_state[:, 0, :]
        sentence_embedding = self.dropout(sentence_embedding)
        score = self.score_head(sentence_embedding)
        return score.squeeze(-1)

模板2: 数据处理函数

# 模板框架
def prepare___(data):
    """___"""
    result = []
    for item in data:
        processed = ___
        result.append(processed)
    return result

# 填充后
def prepare_training_data(raw_data):
    """准备标准化的训练数据"""
    training_examples = []
    for item in raw_data:
        if validate_data_item(item):  # 质量检查
            training_examples.append({
                "prompt": item["prompt"],
                "chosen": item["chosen"],
                "rejected": item["rejected"]
            })
    return training_examples

模板3: Flask API路由

# 模板框架
@app.route('/___', methods=['___'])
def ___():
    """___"""
    try:
        data = request.json
        ___ = data.get('___')
        result = ___
        return jsonify(result)
    except Exception as e:
        return jsonify({"error": str(e)}), 500

# 填充后
@app.route('/score', methods=['POST'])
def score_response():
    """对单个回答进行打分"""
    try:
        data = request.json
        prompt = data.get('prompt')
        response = data.get('response')
        
        if not prompt or not response:
            return jsonify({"error": "缺少必要参数"}), 400
        
        score = reward_model.score_response(prompt, response)
        level = get_quality_level(score)
        
        return jsonify({
            "score": round(score, 3),
            "level": level,
            "status": "success"
        })
    except Exception as e:
        return jsonify({"error": str(e)}), 500

【最小可运行增量法】🔨

从0到1的渐进式构建

版本1: 空框架（能跑但啥也不干）

def train_reward_model():
    """训练奖励模型"""
    pass

if __name__ == '__main__':
    train_reward_model()
    print("程序运行完毕")

验证：运行无报错 ✅

版本2: 添加模型定义（能创建模型）

import torch
import torch.nn as nn
from transformers import AutoModel

class RewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.base_model = AutoModel.from_pretrained("bert-base-chinese")
        self.score_head = nn.Linear(768, 1)
    
    def forward(self, input_ids, attention_mask):
        outputs = self.base_model(input_ids, attention_mask)
        score = self.score_head(outputs.last_hidden_state[:, 0, :])
        return score.squeeze(-1)

def train_reward_model():
    model = RewardModel()
    print(f"模型创建成功: {type(model)}")

if __name__ == '__main__':
    train_reward_model()

验证：成功加载BERT并打印模型类型 ✅

版本3: 添加数据准备（能处理数据）

from transformers import AutoTokenizer

def prepare_data():
    training_examples = [
        {
            "prompt": "孩子发烧39度？",
            "chosen": "建议立即就医...",
            "rejected": "没事，忍忍就好了"
        }
    ]
    return training_examples

def train_reward_model():
    # 加载模型
    model = RewardModel()
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    
    # 准备数据
    data = prepare_data()
    print(f"数据加载成功: {len(data)}条样本")
    
    # 处理第一个样本（测试）
    sample = data[0]
    chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
    inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True)
    print(f"Tokenization成功: input_ids shape = {inputs.input_ids.shape}")

if __name__ == '__main__':
    train_reward_model()

验证：数据加载和tokenization成功 ✅

版本4: 添加前向传播（能计算分数）

def train_reward_model():
    model = RewardModel()
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    data = prepare_data()
    
    # 测试前向传播
    sample = data[0]
    chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
    inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
    
    with torch.no_grad():
        score = model(inputs.input_ids, inputs.attention_mask)
    
    print(f"前向传播成功: score = {score.item():.4f}")

if __name__ == '__main__':
    train_reward_model()

验证：模型能输出分数（虽然未训练，但能跑） ✅

版本5: 添加损失计算（能训练1步）

def compute_reward_loss(chosen_rewards, rejected_rewards):
    reward_diff = chosen_rewards - rejected_rewards
    loss = -torch.log(torch.sigmoid(reward_diff)).mean()
    return loss

def train_reward_model():
    model = RewardModel()
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
    data = prepare_data()
    
    # 训练一步
    sample = data[0]
    
    # Chosen
    chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
    chosen_inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
    chosen_score = model(chosen_inputs.input_ids, chosen_inputs.attention_mask)
    
    # Rejected
    rejected_text = f"用户: {sample['prompt']}\n助手: {sample['rejected']}"
    rejected_inputs = tokenizer(rejected_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
    rejected_score = model(rejected_inputs.input_ids, rejected_inputs.attention_mask)
    
    # 计算损失并更新
    loss = compute_reward_loss(chosen_score, rejected_score)
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()
    
    print(f"训练1步成功: loss = {loss.item():.4f}")

if __name__ == '__main__':
    train_reward_model()

验证：能完成1次参数更新 ✅

版本6: 添加完整训练循环（最终版）

def train_reward_model(num_epochs=3):
    model = RewardModel()
    tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
    data = prepare_data()
    
    for epoch in range(num_epochs):
        total_loss = 0
        
        for sample in data:
            # Chosen
            chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
            chosen_inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
            chosen_score = model(chosen_inputs.input_ids, chosen_inputs.attention_mask)
            
            # Rejected
            rejected_text = f"用户: {sample['prompt']}\n助手: {sample['rejected']}"
            rejected_inputs = tokenizer(rejected_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
            rejected_score = model(rejected_inputs.input_ids, rejected_inputs.attention_mask)
            
            # 计算损失并更新
            loss = compute_reward_loss(chosen_score, rejected_score)
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()
            
            total_loss += loss.item()
        
        avg_loss = total_loss / len(data)
        print(f"Epoch {epoch+1}: Avg Loss = {avg_loss:.4f}")
    
    # 保存模型
    torch.save(model.state_dict(), "reward_model.pth")
    print("训练完成！模型已保存")

if __name__ == '__main__':
    train_reward_model(num_epochs=3)

验证：完整训练流程运行成功，模型文件保存 ✅

【关键动词映射法】🔑

教程中的动词 → Python代码映射

思路动词	Python代码实现	具体示例
准备数据	列表/字典操作	`data = [{"prompt": ..., "chosen": ...}]`
加载模型	`.from_pretrained()`	`model = AutoModel.from_pretrained("bert-base-chinese")`
编码文本	`tokenizer()`	`inputs = tokenizer(text, return_tensors="pt")`
计算分数	`model.forward()`	`score = model(input_ids, attention_mask)`
比较大小	`>` 或 `-`	`if chosen_score > rejected_score`
计算损失	`torch.log(torch.sigmoid())`	`loss = -torch.log(torch.sigmoid(diff))`
反向传播	`.backward()`	`loss.backward()`
更新参数	`optimizer.step()`	`optimizer.step()`
清空梯度	`optimizer.zero_grad()`	`optimizer.zero_grad()`
保存模型	`torch.save()`	`torch.save(model.state_dict(), "model.pth")`
遍历数据	`for ... in ...`	`for batch in train_loader:`
判断条件	`if ... else`	`if val_acc > best_acc: save_model()`
切换模式	`.train()` / `.eval()`	`model.eval()`
关闭梯度	`torch.no_grad()`	`with torch.no_grad(): ...`
拼接字符串	`f-string`	`text = f"用户: {prompt}\n助手: {response}"`
返回结果	`return`	`return {"score": score, "level": level}`

复杂思路的动词分解

思路：“让模型学会区分好答案和差答案”

动词拆解：

“让” → 训练（optimizer.step()）
“学会” → 重复训练（for epoch in range()）
“区分” → 计算分数差（chosen_score - rejected_score）
“好答案和差答案” → 两次前向传播（model(chosen), model(rejected)）

代码实现：

for epoch in range(num_epochs):  # 让它"学会"（重复训练）
    chosen_score = model(chosen_inputs)  # 看"好答案"
    rejected_score = model(rejected_inputs)  # 看"差答案"
    diff = chosen_score - rejected_score  # "区分"大小
    loss = -torch.log(torch.sigmoid(diff))  # 计算差距
    loss.backward()  # 反向传播
    optimizer.step()  # "让"模型更新

思路：“如果chosen分数比rejected高，就奖励模型”

动词拆解：

“如果…比…高” → 计算分数差（diff = chosen - rejected）
“奖励” → 损失小（-log(sigmoid(diff)) 当diff>0时接近0）

代码实现：

reward_diff = chosen_score - rejected_score
# 当diff>0（chosen更高）时，sigmoid(diff)接近1，-log(1)接近0，损失小（奖励）
# 当diff<0（rejected更高）时，sigmoid(diff)接近0，-log(0)接近∞，损失大（惩罚）
loss = -torch.log(torch.sigmoid(reward_diff))

【心理运行跟踪法】🧠

案例1: 跟踪一个样本的完整流程

代码：

sample = {"prompt": "孩子发烧39度？", "chosen": "建议立即就医", "rejected": "没事忍忍"}
chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512)
score = model(inputs.input_ids, inputs.attention_mask)

心理运行：

1. sample = {"prompt": "孩子发烧39度？", ...}
   → sample现在是一个字典，有3个键

2. chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
   → chosen_text = "用户: 孩子发烧39度？\n助手: 建议立即就医"

3. inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512)
   → inputs = {
       "input_ids": tensor([[101, 4510, 2031, ..., 102]]),  # 长度512
       "attention_mask": tensor([[1, 1, 1, ..., 1]])
     }

4. score = model(inputs.input_ids, inputs.attention_mask)
   → inputs进入BERT → 得到768维向量 → 通过Linear层 → 得到1个数
   → score = tensor([1.234])  # 一个标量张量

如果心理运行卡住：

问题：“inputs是什么形状？”
答案：打印print(inputs.input_ids.shape) → 发现是(1, 512)
理解：1个样本，每个样本512个token

案例2: 跟踪损失计算

代码：

chosen_score = tensor([2.5])
rejected_score = tensor([-1.2])
reward_diff = chosen_score - rejected_score
loss = -torch.log(torch.sigmoid(reward_diff))

心理运行：

1. chosen_score = tensor([2.5])
   → chosen的分数是2.5分

2. rejected_score = tensor([-1.2])
   → rejected的分数是-1.2分

3. reward_diff = chosen_score - rejected_score
   → reward_diff = tensor([2.5 - (-1.2)])
   → reward_diff = tensor([3.7])

4. torch.sigmoid(reward_diff)
   → sigmoid(3.7) = 1 / (1 + e^(-3.7))
   → ≈ 0.976（非常接近1）

5. torch.log(torch.sigmoid(reward_diff))
   → log(0.976) ≈ -0.024

6. loss = -torch.log(...)
   → loss = -(-0.024) = 0.024
   → 损失很小，说明模型表现好（chosen确实比rejected高）

验证逻辑：

如果chosen_score = 0.5, rejected_score = 0.6（预测反了）
reward_diff = -0.1
sigmoid(-0.1) = 0.475
-log(0.475) = 0.743
损失很大，说明模型需要改进 ✅

【边界条件预想法】⚠️

边界1: 空数据情况

代码（未处理）：

def prepare_training_data(raw_data):
    training_examples = []
    for item in raw_data:
        training_examples.append({
            "prompt": item["prompt"],
            "chosen": item["chosen"],
            "rejected": item["rejected"]
        })
    return training_examples

问题：如果raw_data = []会怎样？

返回空列表 → 训练时for batch in train_loader直接跳过 → 模型参数不更新 ❌

改进（处理边界）：

def prepare_training_data(raw_data):
    if not raw_data:  # 边界1: 空数据
        raise ValueError("训练数据不能为空，至少需要1个样本")
    
    if len(raw_data) < 10:  # 边界2: 数据太少
        print(f"⚠️ 警告：训练样本只有{len(raw_data)}个，建议至少100个")
    
    training_examples = []
    for item in raw_data:
        if not item.get("prompt") or not item.get("chosen") or not item.get("rejected"):
            continue  # 跳过不完整的样本
        training_examples.append({
            "prompt": item["prompt"],
            "chosen": item["chosen"],
            "rejected": item["rejected"]
        })
    
    if not training_examples:  # 边界3: 过滤后为空
        raise ValueError("没有有效的训练样本")
    
    return training_examples

边界2: 文本长度极端情况

代码（未处理）：

inputs = tokenizer(text, max_length=512, truncation=True, padding=True)

问题：

太短：如果text = "好"，只有1个字
- tokenization后：[101, 1962, 102, 0, 0, ..., 0]（大部分是padding）
- 模型能处理，但embedding可能不准确 ⚠️
太长：如果text有5000字
- 自动截断到512 tokens
- 后面的内容丢失，可能影响判断 ⚠️

改进（预检查）：

def preprocess_data(data_item, tokenizer, max_length=512):
    prompt = data_item["prompt"]
    chosen = data_item["chosen"]
    
    # 边界检查
    if len(prompt) < 5:
        raise ValueError(f"问题太短: {prompt}")
    
    if len(chosen) < 10:
        raise ValueError(f"回答太短: {chosen}")
    
    chosen_text = f"用户: {prompt}\n助手: {chosen}"
    
    # 检查是否会被截断
    tokens = tokenizer.tokenize(chosen_text)
    if len(tokens) > max_length:
        print(f"⚠️ 警告：文本被截断（原长度{len(tokens)}，限制{max_length}）")
    
    inputs = tokenizer(
        chosen_text,
        max_length=max_length,
        truncation=True,
        padding="max_length",
        return_tensors="pt"
    )
    
    return inputs

边界3: 数值稳定性

代码（可能有问题）：

loss = -torch.log(torch.sigmoid(reward_diff))

问题：

如果reward_diff = -100（chosen分数远低于rejected）
- sigmoid(-100) = 1 / (1 + e^100) ≈ 0（极小值）
- log(0) = -∞ → 梯度爆炸 ❌

改进（数值稳定版）：

def compute_reward_loss_stable(chosen_rewards, rejected_rewards):
    reward_diff = chosen_rewards - rejected_rewards
    
    # 使用logsigmoid避免数值问题
    # logsigmoid(x) = log(sigmoid(x)) = log(1/(1+e^(-x))) = -log(1+e^(-x))
    loss = -torch.nn.functional.logsigmoid(reward_diff).mean()
    
    return loss

或者添加clipping：

def compute_reward_loss_clipped(chosen_rewards, rejected_rewards):
    reward_diff = chosen_rewards - rejected_rewards
    
    # 限制diff的范围在[-10, 10]
    reward_diff = torch.clamp(reward_diff, min=-10, max=10)
    
    loss = -torch.log(torch.sigmoid(reward_diff)).mean()
    return loss

【逆向验证法】🔄

验证1: 损失函数的逆向检查

正向代码：

chosen_score = 2.5
rejected_score = -1.2
diff = chosen_score - rejected_score  # 3.7
loss = -log(sigmoid(3.7))  # 0.024

逆向验证：

逻辑1：如果loss小，说明diff大，说明chosen >> rejected ✅
- 验证：diff=3.7 → loss=0.024（很小）✅
逻辑2：如果调换chosen和rejected，loss应该变大
- 验证：diff=-3.7 → sigmoid(-3.7)=0.024 → -log(0.024)=3.73（很大）✅
逻辑3：如果chosen和rejected相等，loss应该是-log(0.5)=0.693
- 验证：diff=0 → sigmoid(0)=0.5 → -log(0.5)=0.693 ✅

验证2: 模型训练的逆向检查

正向假设：训练后，模型应该能给好答案更高分

逆向测试：

# 训练前
model_before = RewardModel()
score_good_before = model_before.score_response("问题", "好答案")
score_bad_before = model_before.score_response("问题", "差答案")

# 训练
train_reward_model(model_before, data, epochs=10)

# 训练后
score_good_after = model_before.score_response("问题", "好答案")
score_bad_after = model_before.score_response("问题", "差答案")

# 验证
assert score_good_after > score_bad_after, "❌ 训练失败：好答案分数没有高于差答案"
assert score_good_after > score_good_before, "⚠️ 可能的问题：好答案分数没有提升"
print("✅ 逆向验证通过：模型确实学会了区分好坏")

验证3: 数据预处理的逆向检查

正向代码：

text = "用户: 孩子发烧39度？\n助手: 建议立即就医"
inputs = tokenizer(text, return_tensors="pt")
input_ids = inputs.input_ids  # tensor([[101, 4510, ..., 102]])

逆向验证：

# 解码回文本
decoded_text = tokenizer.decode(input_ids[0])
print(f"原文本: {text}")
print(f"解码文本: {decoded_text}")

# 验证内容是否一致（忽略特殊token）
assert "孩子发烧39度" in decoded_text, "❌ 关键词丢失"
assert "建议立即就医" in decoded_text, "❌ 关键词丢失"
print("✅ 逆向验证通过：tokenization正确")

【重复识别合并法】🔄

案例1: 重复的tokenization操作

初版（重复）：

# chosen的处理
chosen_text = f"用户: {prompt}\n助手: {chosen}"
chosen_inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
chosen_score = model(chosen_inputs.input_ids, chosen_inputs.attention_mask)

# rejected的处理
rejected_text = f"用户: {prompt}\n助手: {rejected}"
rejected_inputs = tokenizer(rejected_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
rejected_score = model(rejected_inputs.input_ids, rejected_inputs.attention_mask)

识别重复模式：

文本拼接：f"用户: {prompt}\n助手: {response}"
tokenization：tokenizer(..., 相同参数)
模型推理：model(input_ids, attention_mask)

合并优化：

def encode_and_score(model, tokenizer, prompt, response, max_length=512):
    """通用的编码和打分函数"""
    text = f"用户: {prompt}\n助手: {response}"
    inputs = tokenizer(
        text,
        return_tensors="pt",
        max_length=max_length,
        truncation=True,
        padding=True
    )
    score = model(inputs.input_ids, inputs.attention_mask)
    return score

# 使用
chosen_score = encode_and_score(model, tokenizer, prompt, chosen)
rejected_score = encode_and_score(model, tokenizer, prompt, rejected)

案例2: 重复的模型保存逻辑

初版（重复）：

# 训练循环中
if val_accuracy > best_val_accuracy:
    best_val_accuracy = val_accuracy
    torch.save(model.state_dict(), "best_model.pth")
    print(f"保存最佳模型 (准确率: {val_accuracy:.4f})")

# 其他地方
if epoch % 5 == 0:
    torch.save(model.state_dict(), f"checkpoint_epoch_{epoch}.pth")
    print(f"保存检查点 (Epoch {epoch})")

识别重复：torch.save(model.state_dict(), path)

合并优化：

def save_model(model, filepath, metadata=None):
    """统一的模型保存接口"""
    checkpoint = {
        'model_state_dict': model.state_dict(),
        'timestamp': datetime.now().isoformat()
    }
    if metadata:
        checkpoint.update(metadata)
    
    torch.save(checkpoint, filepath)
    print(f"✅ 模型已保存: {filepath}")

# 使用
save_model(model, "best_model.pth", {"val_accuracy": val_accuracy})
save_model(model, f"checkpoint_{epoch}.pth", {"epoch": epoch})

【中间变量消除法】✂️

案例1: 多余的临时变量

初版（啰嗦）：

temp1 = outputs.last_hidden_state
temp2 = temp1[:, 0, :]
temp3 = self.dropout(temp2)
temp4 = self.score_head(temp3)
score = temp4.squeeze(-1)
return score

识别：temp1-4只用一次，可以消除

优化版：

return self.score_head(
    self.dropout(outputs.last_hidden_state[:, 0, :])
).squeeze(-1)

但注意：如果中间变量有意义，保留更清晰！

清晰版（推荐）：

# 保留有意义的中间变量
cls_embedding = outputs.last_hidden_state[:, 0, :]  # [CLS] token的向量
cls_embedding = self.dropout(cls_embedding)  # 正则化
score = self.score_head(cls_embedding)  # 打分
return score.squeeze(-1)

案例2: 可合并的数据处理

初版：

data = load_data()
data = validate_data(data)
data = clean_data(data)
data = augment_data(data)
return data

优化（管道式）：

def process_data(raw_data):
    pipeline = [validate_data, clean_data, augment_data]
    data = raw_data
    for func in pipeline:
        data = func(data)
    return data

或者（函数式）：

from functools import reduce

def process_data(raw_data):
    pipeline = [validate_data, clean_data, augment_data]
    return reduce(lambda data, func: func(data), pipeline, raw_data)

【完整实战：从思路到代码的全流程】🎯

需求：实现一个医疗AI回答的评分器

阶段1: 思路明确（粗粒度）

需求：评估医疗AI回答的质量
输入：问题 + AI回答
输出：质量分数（0-5分）

核心思路：
1. 训练一个评分模型
2. 模型看过很多"好答案 vs 差答案"的例子
3. 模型学会判断新答案的质量

阶段2: 分解到中等粒度

步骤1: 数据准备
- 收集医疗问题
- 标注好答案和差答案
- 构建训练集

步骤2: 模型训练
- 用BERT作为基础模型
- 添加打分层
- 训练模型区分好坏

步骤3: 评分使用
- 输入新问题和答案
- 模型计算分数
- 返回质量等级

阶段3: 细粒度分解（可直接写代码）

数据准备：
1. 定义数据格式：{"prompt": str, "chosen": str, "rejected": str}
2. 读取数据：从Python列表或文件
3. 验证数据：检查长度、去重、安全检测
4. 文本拼接：f"用户: {prompt}\n助手: {response}"
5. Tokenization：tokenizer(text, max_length=512)

模型构建：
1. 导入BERT：AutoModel.from_pretrained("bert-base-chinese")
2. 定义打分头：nn.Linear(768, 1)
3. 前向传播：BERT编码 → 提取[CLS] → Linear → 标量
4. 计算损失：Bradley-Terry公式
5. 反向传播和优化

推理使用：
1. 加载训练好的模型
2. 输入问题和答案
3. 模型forward计算分数
4. 分数映射到等级（优秀/良好/一般/较差）
5. 返回JSON格式结果

阶段4: 最小可运行实现（第1版）

import torch
import torch.nn as nn
from transformers import AutoModel, AutoTokenizer

class RewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.bert = AutoModel.from_pretrained("bert-base-chinese")
        self.score_head = nn.Linear(768, 1)
    
    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids, attention_mask)
        score = self.score_head(outputs.last_hidden_state[:, 0, :])
        return score.squeeze(-1)

# 测试：能创建模型吗？
model = RewardModel()
print("✅ 模型创建成功")

阶段5: 添加数据处理（第2版）

def prepare_data():
    return [
        {
            "prompt": "孩子发烧39度？",
            "chosen": "建议立即就医检查，高烧39度需要专业医生诊治...",
            "rejected": "没事，忍忍就好了"
        }
    ]

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

def encode_sample(sample):
    chosen_text = f"用户: {sample['prompt']}\n助手: {sample['chosen']}"
    rejected_text = f"用户: {sample['prompt']}\n助手: {sample['rejected']}"
    
    chosen_inputs = tokenizer(chosen_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
    rejected_inputs = tokenizer(rejected_text, return_tensors="pt", max_length=512, truncation=True, padding=True)
    
    return chosen_inputs, rejected_inputs

# 测试
data = prepare_data()
chosen, rejected = encode_sample(data[0])
print(f"✅ 数据处理成功: chosen shape = {chosen.input_ids.shape}")

阶段6: 添加训练逻辑（第3版）

def compute_loss(chosen_score, rejected_score):
    diff = chosen_score - rejected_score
    return -torch.log(torch.sigmoid(diff)).mean()

def train_one_step(model, sample):
    chosen_inputs, rejected_inputs = encode_sample(sample)
    
    chosen_score = model(chosen_inputs.input_ids, chosen_inputs.attention_mask)
    rejected_score = model(rejected_inputs.input_ids, rejected_inputs.attention_mask)
    
    loss = compute_loss(chosen_score, rejected_score)
    return loss

# 测试
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
data = prepare_data()

loss = train_one_step(model, data[0])
loss.backward()
optimizer.step()
optimizer.zero_grad()

print(f"✅ 训练1步成功: loss = {loss.item():.4f}")

阶段7: 完整训练循环（最终版）

def train_reward_model(model, data, num_epochs=3):
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
    
    for epoch in range(num_epochs):
        total_loss = 0
        
        for sample in data:
            # 前向传播
            chosen_inputs, rejected_inputs = encode_sample(sample)
            chosen_score = model(chosen_inputs.input_ids, chosen_inputs.attention_mask)
            rejected_score = model(rejected_inputs.input_ids, rejected_inputs.attention_mask)
            
            # 计算损失
            loss = compute_loss(chosen_score, rejected_score)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            total_loss += loss.item()
        
        avg_loss = total_loss / len(data)
        print(f"Epoch {epoch+1}: Loss = {avg_loss:.4f}")
    
    # 保存模型
    torch.save(model.state_dict(), "reward_model.pth")
    print("✅ 训练完成，模型已保存")
    
    return model

# 执行训练
data = prepare_data()
model = RewardModel()
trained_model = train_reward_model(model, data, num_epochs=3)

阶段8: 添加推理接口（完整版）

class RewardModelPredictor:
    def __init__(self, model_path):
        self.model = RewardModel()
        self.model.load_state_dict(torch.load(model_path))
        self.model.eval()
        self.tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
    
    def score_response(self, prompt, response):
        text = f"用户: {prompt}\n助手: {response}"
        inputs = self.tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True)
        
        with torch.no_grad():
            score = self.model(inputs.input_ids, inputs.attention_mask)
        
        return score.item()
    
    def get_quality_level(self, score):
        if score >= 2.0:
            return "优秀"
        elif score >= 1.0:
            return "良好"
        elif score >= 0.0:
            return "一般"
        else:
            return "较差"

# 使用
predictor = RewardModelPredictor("reward_model.pth")
score = predictor.score_response("孩子发烧39度？", "建议立即就医检查...")
level = predictor.get_quality_level(score)
print(f"评分: {score:.2f}, 等级: {level}")

【核心原则总结】💡

原则1: 不要一步到位

❌ 错误做法：一口气写完500行代码
✅ 正确做法：
   - 第1天：写50行，跑通基本流程
   - 第2天：加100行，添加数据处理
   - 第3天：加150行，完善训练逻辑
   - 第4天：加100行，添加推理接口
   - 第5天：加100行，优化和错误处理

原则2: 每步可验证

❌ 写完再测：写500行 → 运行 → 100个错误 → 不知道哪里错
✅ 边写边测：
   - 写10行 → 运行 → ✅ 通过
   - 再写10行 → 运行 → ✅ 通过
   - 再写10行 → 运行 → ❌ 报错 → 立即修复

原则3: 保持具体

❌ 抽象思考："需要一个训练循环"
✅ 具体推导：
   "我有3个样本：
    第1个：好答案='立即就医'，差答案='忍忍就好'
    第2个：好答案='分散投资'，差答案='全买股票'
    第3个：...
    
    模型需要看这3个样本，每个样本...
    第1次看时，chosen分数=0.5, rejected分数=0.3...
    训练后，chosen分数=2.1, rejected分数=-0.8..."

原则4: 接受丑陋

第1版（丑但能跑）：
def train(model, data):
    for sample in data:
        score1 = model(sample["chosen"])
        score2 = model(sample["rejected"])
        loss = compute_loss(score1, score2)
        loss.backward()
        optimizer.step()

第2版（优化后）：
def train(model, data, config):
    optimizer = self._init_optimizer(config)
    scheduler = self._init_scheduler(config)
    
    for epoch in range(config.num_epochs):
        metrics = self._train_one_epoch(model, data, optimizer)
        self._log_metrics(metrics)
        scheduler.step()

# 先写第1版跑通，再优化成第2版！