Lora
文章平均质量分 83
茫茫人海一粒沙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LoRA 微调后幻觉排查 Checklist
先看数据→ 够不够、准不准。再看 LoRA 参数→ rank、适配能力。再看训练方式→ 是否仅做了 SFT,缺乏对齐。最后看推理设置→ 解码参数、上下文、工具辅助。原创 2025-08-25 11:28:02 · 533 阅读 · 0 评论 -
DPO:大语言模型偏好学习的高效方案
DPO 是 Anthropic 在 2023 年提出的一种无需强化学习、直接优化偏好数据的算法,核心思想是:给模型两个回答(一个好,一个差),直接优化让模型更倾向好回答,而不是差回答。它不再使用 reward model 来打分,而是直接用语言模型自己的 log-likelihood 来判断哪个回答更“可信”。原创 2025-07-24 18:19:50 · 1611 阅读 · 0 评论 -
使用 LLaMA 3 8B 微调一个 Reward Model:从入门到实践
Reward Model(RM)是 RLHF 流程中的评分器,它学习人类偏好:在多个候选回答中判断哪个更符合用户意图。训练目标是使模型给出更高 reward 分数的输出更符合人类偏好,常用于后续的强化学习微调如 PPO、DPO 等。原创 2025-07-24 16:43:35 · 1125 阅读 · 0 评论 -
深入理解 LoRA:大语言模型微调的低秩魔法
LoRA 是一个优雅的、理论扎实的参数高效微调方法。它基于低秩矩阵近似理论,通过极小的参数改动,完成对大语言模型的任务适配。未来在多任务学习、模型压缩、边缘部署等方向,都有极大潜力。原创 2025-07-02 18:11:55 · 1037 阅读 · 0 评论 -
使用LoRA对Llama3微调
使用LoRA(Low-Rank Adaptation of Large Language Models)技术对Llama-3语言模型进行微调。原创 2024-08-18 14:22:20 · 4837 阅读 · 8 评论
分享