2025山东大学软件学院创新实训4

考虑到要结合llm,我们进而想到直接偏好优化DPO,尽管诸如chatGPT等llm使用的是基于强化学习人类反馈RLHL,但考虑到rlhl计算成本高,复杂度大,并且我们想要迁移到推荐系统,我们还是先考虑DPO。

以下是DPO学习笔记:

一、先前工作的分类、方法及缺点分析

1)基于监督微调(Supervised Fine-Tuning)的方法

方法:通过人工标注的高质量回答(如专家撰写的指令响应)直接微调模型。例如,指令微调(Instruction-Tuning)通过将任务描述(指令)与正确答案配对,让模型学习遵循指令生成高质量内容。
缺点:
依赖高质量标注数据:需要大量专家级的人类示范数据,成本高昂且难以覆盖所有用户需求。
无法捕捉复杂偏好:人类偏好是多样且隐式的,单纯模仿有限示范数据难以泛化到所有场景(例如模型可能学会错误但高频的编程习惯)。

2)基于强化学习人类反馈(RLHF/RLAIF)的方法

方法:
奖励建模:用人类对回答的偏好标注(如A比B好)训练一个奖励模型(Reward Model),建模人类偏好。
强化学习优化:通过RL算法(如PPO)最大化奖励模型的输出,同时约束模型不要偏离原始模型太远(KL散度约束)。
缺点:
流程复杂:需维护奖励模型和策略模型,涉及多阶段训练。
计算成本高:RL需反复从策略模型采样生成回答,计算开销大。
训练不稳定:RL超参数敏感(如KL惩罚系数),易出现梯度爆炸或策略崩溃。
奖励模型偏差:奖励模型可能无法完美拟合人类偏好,导致策略优化偏离真实目标。

3)基于偏好学习的非RL方法(如CDB/PbRL)

方法:在非语言模型领域(如赌博机或机器人控制):
上下文赌博机(CDB):在线学习时通过偏好反馈选择动作(如A比B好),目标为找到“胜率最高”的策略。
偏好强化学习(PbRL):将偏好视为隐式评分函数,先估计奖励再优化策略。
缺点:
依赖在线交互:CDB需实时获取偏好反馈,不适用于离线数据。
间接优化:PbRL仍需显式建模奖励函数,无法直接优化策略。

我们会思考,为什么会这样呢?

我认为有下面三点,RL的固有复杂性,难以训练,奖励建模的局限性,人类偏好可能无法完全由标量奖励函数表示,数据效率低下,训练过程复杂。

二、本文的动机与问题建模

Motivation(核心动机)

问题发现:现有RLHF方法虽有效但复杂,需两阶段训练(奖励建模+RL优化),导致计算成本高、调试困难。
关键洞察:是否可以直接优化策略,绕过显式的奖励建模和RL步骤?
目标:提出一种单阶段、无强化学习的方法,直接通过偏好数据优化策略,简化流程并提升稳定性。

1.原RLHL目标:最大化奖励函数,同时约束策略与原模型的KL散度

其中r(x,y)为奖励函数,ref为原始模型

2.关键变换:通过数学推导,将奖励函数 r(x,y) 与策略 π 隐式绑定,证明最优策略可表示为:

由此可将原问题转化为直接优化策略 π

3.损失函数:

其中 y w和 y l是偏好对中的优/劣回答,σ 是sigmoid函数。

好处:

去复杂化:无需训练奖励模型或RL优化,直接用分类损失微调策略。
稳定性:损失函数仅依赖策略的生成概率比,避免RL中的策略采样和方差问题。
理论保障:通过数学变换严格等价于原RLHF目标,但实现更简单高效。

三、方法详解:Direct Preference Optimization (DPO)

核心思想

DPO通过隐式奖励参数化,将传统RLHF的两阶段(奖励建模+RL优化)简化为单阶段优化,直接通过偏好数据调整策略(语言模型),无需显式奖励模型或强化学习。

设计动机与优势

避免RL复杂性:传统RLHF需PPO等算法,涉及策略采样、方差高的优势函数估计,DPO通过闭式解绕过这些步骤。
隐式奖励建模:将奖励函数嵌入策略参数中,避免显式奖励模型的训练误差传递。
稳定高效:单一交叉熵损失,无需策略采样或多次迭代,适合大规模模型微调。

可以看到在所有的KL值下均能提供最高的期望奖励。

### 山东大学软件学院实训项目与课程安排 #### 1. 实训项目的概述 山东大学软件学院实训项目旨在通过实际操作和项目驱动的方式提升学生的实践能力和综合技能。例如,在暑期实训中,研究生管理系统开发是一个典型的案例[^3]。该项目涉及多个功能模块的设计与实现,其中包括学生组的“我的考试”界面以及教师组的“我的监考”界面。 以下是该系统的部分核心功能展示: ```html <div> <p>课程号:{{course.courseNameId}} {{course.courseName}}</p> <p>开始时间:{{formatDate(course.exmStartTime)}}</p> <p>结束时间:{{formatDate(course.exmOverTime)}}</p> <p>考试地点:{{course.exmPlace}}</p> <p>   考试时间:{{course.exmTime}}</p> <p>考试方式:{{course.teachMethod}}</p> <button type="primary" class="select-button" @click="exm_detail(index)" style="background-color:#18B566">查看考试要求</button> </div> ``` #### 2. 课程安排的具体内容 在第一周的实训过程中,学生可以通过系统查询本学期所选课程的考试安排信息,这些信息通常包括但不限于课序号、考试名称、考试相关的时间安排以及详细的考试介绍[^2]。具体的内容可能如下所示: | 字段 | 描述 | |--------------|--------------------------| | 课序号 | 唯一标识每门课程 | | 考试名称 | 明确考试科目 | | 开始时间 | 考试起始时刻 | | 结束时间 | 考试终止时刻 | | 考试介绍 | 提供考试形式及其他细节 | 这种结构化的数据呈现不仅方便了学生查阅个人考试计划,还帮助教师更好地管理监考任务。 #### 3. 物联网技术的应用前景 除了传统的软件开发类实训外,随着物联网技术的发展,职业教育领域也在积极探索如何将其融入教学实践中。例如,某些实验实训室已经引入了基于物联网的技术平台,用于培养学生的创新思维和技术应用能力[^4]。这表明未来山东大学软件学院可能会进一步拓展此类新兴领域的培训方向。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值