[论文笔记] LLaMA3.1与Qwen2 技术报告中预训练方案对比
此外,它确保了模型生成的内容与人类价值观一致,使其有帮助、诚实且无害。与依赖大量人类监督的传统方法不同,我们的方法侧重于可扩展的对齐,最小化人类注释的需求(Cao等人,2024)。具体来说,我们研究了获取高质量的演示和偏好数据的方法,用于有监督的微调(Supervised Fine-Tuning, SFT)和从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF),目的是在最大限度地提高数据质量和可靠性的同时,最小化人类标记的需求。
复制链接