- 博客(9)
- 收藏
- 关注
原创 postraing of llm chapter 3 DPO
摘要:现有强化学习方法在可验证任务中表现优异,但在开放式对话任务中存在局限性。传统RLHF方法无法有效激励"先思考后回答"的推理过程。研究提出通过直接偏好优化(DPO)方法,既能精准调整模型行为(如身份识别),又能提升整体能力。实验表明,DPO能有效改变模型身份认知(从"Qwen"变为"DeepQwen"),且优于监督微调方法。研究强调需注意避免过拟合,并建议采用在线DPO实现持续改进。该技术为模型与人类价值观对齐提供了新思路。
2025-10-17 23:49:59
815
原创 datawhalechina/Post-training-of-LLM chapter1--Introduction to Post-training
摘要:大模型后训练方法包括监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(Online RL),适用于不同场景。SFT简单但数据成本高,DPO优化人类偏好,Online RL性能强但复杂度高。成功要素包括数据算法协同设计、高效工具库和全面评估体系。后训练适用于专业领域定制、复杂指令遵循等场景,需权衡效果与成本,避免能力退化。决策应基于任务复杂度,从提示工程到持续预训练分层次选择。(149字)
2025-10-13 14:28:57
322
原创 Torch-Rechub多任务学习实战指南
本文介绍了使用torch-rechub库实现推荐系统多任务学习的方法,重点讲解了ESMM和MMOE两种经典模型。教程基于Ali-CCP数据集,包含23个稀疏特征和8个稠密特征,标注了点击和购买两个任务标签。ESMM模型通过预测点击率和转化率间接计算购买转化率,主要处理稀疏特征;MMOE模型则采用多专家网络结构,能同时处理稀疏和稠密特征。文章详细说明了两种模型的数据准备、特征定义、模型构建和训练评估流程,帮助读者掌握多任务学习在推荐系统中的应用,以及torch-rechub库的使用方法。
2025-09-28 20:24:15
644
原创 datawhale ai春训营 (ai+新能源方向)
**方法:** 采用网格搜索 (Grid Search) 的方法。* **辐照度相关特征:** 计算总水平面辐照度 (`ghi`) 与光伏面板辐照度 (`poai`) 的比值 (`ghi/poai`) 和差值 (`ghi_poai`),可能反映光伏组件的效率或特定条件下的能量转换关系。* **依据:** 使用各个模型在训练集上生成的OOF预测 (`lgb_oof`, `xgb_oof`, `cat_oof`) 和真实的训练集目标值 (`target['功率(MW)']`)。
2025-05-20 19:29:42
374
原创 Datawhaleai春训营(ai+制药)
在竞赛中,理解和优化baseline代码是提升模型性能的关键。首先,深入分析代码结构、数据流和模型架构,为后续修改奠定基础。其次,通过调整学习率、批量大小等参数,观察模型性能变化,找到最优配置。在竞赛过程中,及时补充Python、PyTorch等知识盲区,有助于更好地理解赛题和代码。小步创新如改进数据预处理和模型结构,逐步提升模型性能。同时,关注生物计算领域的最新论文,获取前沿技术。竞赛流程包括数据探索、清洗、特征工程、模型训练与验证等,每个步骤都至关重要。通过系统性地完成这些步骤,可以在竞赛中取得优异成绩
2025-05-20 07:41:19
367
原创 Datawhale X 李宏毅苹果书AI夏令营”
卷积神经网络(CNN)是一种深度学习模型,尤其适用于处理具有网格结构的数据(如图像)。它通过卷积层和池化层来提取数据的空间特征,并通过全连接层进行分类或其他任务。
2024-09-03 22:54:32
1166
原创 Datawhale X 李宏毅苹果书 AI夏令营
局部最小值(Local Minima):鞍点(Saddle Point):批次(Batch):动量(Momentum):
2024-08-27 22:23:13
328
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅