自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 postraing of llm chapter 3 DPO

摘要:现有强化学习方法在可验证任务中表现优异,但在开放式对话任务中存在局限性。传统RLHF方法无法有效激励"先思考后回答"的推理过程。研究提出通过直接偏好优化(DPO)方法,既能精准调整模型行为(如身份识别),又能提升整体能力。实验表明,DPO能有效改变模型身份认知(从"Qwen"变为"DeepQwen"),且优于监督微调方法。研究强调需注意避免过拟合,并建议采用在线DPO实现持续改进。该技术为模型与人类价值观对齐提供了新思路。

2025-10-17 23:49:59 815

原创 Post-training-of-LLMs/监督微调基础理论Basics of SFT

2025-10-15 19:07:14 74

原创 datawhalechina/Post-training-of-LLM chapter1--Introduction to Post-training

摘要:大模型后训练方法包括监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(Online RL),适用于不同场景。SFT简单但数据成本高,DPO优化人类偏好,Online RL性能强但复杂度高。成功要素包括数据算法协同设计、高效工具库和全面评估体系。后训练适用于专业领域定制、复杂指令遵循等场景,需权衡效果与成本,避免能力退化。决策应基于任务复杂度,从提示工程到持续预训练分层次选择。(149字)

2025-10-13 14:28:57 322

原创 Torch-Rechub多任务学习实战指南

本文介绍了使用torch-rechub库实现推荐系统多任务学习的方法,重点讲解了ESMM和MMOE两种经典模型。教程基于Ali-CCP数据集,包含23个稀疏特征和8个稠密特征,标注了点击和购买两个任务标签。ESMM模型通过预测点击率和转化率间接计算购买转化率,主要处理稀疏特征;MMOE模型则采用多专家网络结构,能同时处理稀疏和稠密特征。文章详细说明了两种模型的数据准备、特征定义、模型构建和训练评估流程,帮助读者掌握多任务学习在推荐系统中的应用,以及torch-rechub库的使用方法。

2025-09-28 20:24:15 644

原创 datawhale ai春训营 (ai+新能源方向)

**方法:** 采用网格搜索 (Grid Search) 的方法。* **辐照度相关特征:** 计算总水平面辐照度 (`ghi`) 与光伏面板辐照度 (`poai`) 的比值 (`ghi/poai`) 和差值 (`ghi_poai`),可能反映光伏组件的效率或特定条件下的能量转换关系。* **依据:** 使用各个模型在训练集上生成的OOF预测 (`lgb_oof`, `xgb_oof`, `cat_oof`) 和真实的训练集目标值 (`target['功率(MW)']`)。

2025-05-20 19:29:42 374

原创 Datawhaleai春训营(ai+制药)

在竞赛中,理解和优化baseline代码是提升模型性能的关键。首先,深入分析代码结构、数据流和模型架构,为后续修改奠定基础。其次,通过调整学习率、批量大小等参数,观察模型性能变化,找到最优配置。在竞赛过程中,及时补充Python、PyTorch等知识盲区,有助于更好地理解赛题和代码。小步创新如改进数据预处理和模型结构,逐步提升模型性能。同时,关注生物计算领域的最新论文,获取前沿技术。竞赛流程包括数据探索、清洗、特征工程、模型训练与验证等,每个步骤都至关重要。通过系统性地完成这些步骤,可以在竞赛中取得优异成绩

2025-05-20 07:41:19 367

原创 Datawhale X 李宏毅苹果书AI夏令营”

卷积神经网络(CNN)是一种深度学习模型,尤其适用于处理具有网格结构的数据(如图像)。它通过卷积层和池化层来提取数据的空间特征,并通过全连接层进行分类或其他任务。

2024-09-03 22:54:32 1166

原创 Datawhale X 李宏毅苹果书AI夏令营”

学习速率的重要性:常见调整策略:自适应学习速率算法:实际应用建议:

2024-08-31 22:14:58 365

原创 Datawhale X 李宏毅苹果书 AI夏令营

局部最小值(Local Minima):鞍点(Saddle Point):批次(Batch):动量(Momentum):

2024-08-27 22:23:13 328 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除