- 博客(14)
- 收藏
- 关注
原创 Qwen模型使用trl仓库的orpotrainer训练实战
大模型,特别是在人工智能领域的深度学习模型,通常具有大量的参数和复杂的结构,这使它们具有很高的表达能力和灵活性。然而,这种复杂性也带来了一些挑战,尤其是关于模型的行为与设计者或使用者的意图是否一致的问题。这就引出了“偏好对齐”(preference alignment)的概念,其核心是确保模型的行为符合人类的价值观和目标。ORPO算法是最近提出的一种新的偏好对齐的方法,区别于传统的RLHF、PPO、DPO等方法,ORPO不需要奖励模型和额外参考模型。
2024-04-29 13:16:20 591
原创 Qwen模型使用trl仓库的ktotrainer训练实战
本文使用trl仓库的ktotrainer实现对Qwen模型的训练,使模型对齐人类偏好。之前在博客中(链接)已经大概讲解了KTO的算法思想,本文主要为实战部分。本文首先使用trl的官方示例代码跑通整个流程,之后对数据集处理部分作了修改,修改后可以使用PPO、DPO相同的数据集进行kto训练。本文的训练数据集为:comparison_gpt4_data_zh模型为:Qwen-7B-Chat文末有github仓库,仓库中还包含其他模型的kto训练脚本。
2024-04-28 15:26:43 1397 1
原创 A General Theoretical Paradigm to Understand Learning from Human Preferences
这种方法的关键假设是,通过Bradley-Terry模型得到的点奖励可以准确地代表人类的成对偏好,使得RL算法可以使用这些点奖励来优化策略,从而生成更符合人类偏好的行为或输出。在论文中提到的“使用Bradley-Terry模型将成对偏好与点奖励等同起来”指的是一种假设,即可以通过Bradley-Terry模型来量化和表示成对偏好(即在两个选项之间人类的偏好选择),并将这种偏好关系转换为点奖励(pointwise rewards),这些点奖励可以在强化学习(RL)中作为反馈信号来指导模型的学习。
2024-03-25 13:36:39 1192
原创 KTO: Model Alignment as Prospect Theoretic Optimization
本论文介绍了一种名为Kahneman-Tversky Optimization(KTO)的方法,用于利用前景理论将大型语言模型(LLMs)与人类反馈对齐。这种方法基于考虑了人类偏好(如厌恶损失)的人类意识损失函数(HALOs)。论文表明,流行的对齐方法如DPO、SLiC和PPO-Clip隐含地模拟了人类的偏执,使它们也成为HALOs。与目前的方法不同,KTO直接最大化模型生成的效用而不是人类偏好的对数似然。
2024-03-21 18:11:35 2798 1
原创 Retrieval-Augmented Generation for Large Language Models: A Survey
大型语言模型(LLM)已成为人工智能领域的重大突破,在各种任务中表现出强大的能力。然而,LLM仍面临一些挑战,例如幻觉、知识更新缓慢和答案缺乏透明度。幻觉是LLM生成错误或虚假信息的倾向。这可能发生在LLM没有足够的知识来回答问题时,或在LLM受到噪声或偏见的影响时。知识更新缓慢是LLM的一个缺点,因为它们需要大量数据来训练。这意味着LLM很难跟上不断变化的世界。检索增强生成(RAG)是一种新兴技术,旨在解决LLM面临的这些挑战。
2023-12-27 21:55:18 2214 1
原创 正弦、余弦三角函数位置编码讲解、代码实现
在Transformer中,位置编码是为了引入位置信息,而位置编码的形式通常是一个正弦函数和一个余弦函数的组合,这种位置编码方式可以引入位置信息,使得Transformer模型可以处理序列数据。
2023-12-16 16:26:25 5061 1
原创 AlphaCode 2 Technical Report
本文介绍了AlphaCode 2,这是一个由Gemini (Gemini Team, Google, 2023)提供支持的性能大幅提高的新增强系统。依赖于强大的语言模型和定制的搜索和重新排序机制的组合。在与原始AlphaCode相同的平台上进行评估时,AlphaCode 2解决的问题比Alphacode多1.7倍,展现了突出的编码能力。
2023-12-08 22:56:04 1354
原创 StreamLLM:文本生成长度无限制?
本文提出的StreamLLM是注意力计算的一种改进,同时选择了注意力窗口和注意力池来计算attention,并且在计算过程中不适用原输入序列中的绝对位置,而是注意力池和注意力窗口拼接后的相对位置,作者验证在这些改进下,模型可以生成高质量且无限长的文本序列。
2023-10-31 21:53:18 655 1
原创 龙猫之死?(Chinchilla’s Death)
训练初期,较小的模型比更大的模型训练地更快;一段时间之后,小模型训练速度放慢,并被更大的模型超越;当训练损失进入线性下降阶段时,较小的模型更陡峭地下降到高级知识,并且它们再次超越了较大的模型!(LLaMA1的7B和13B给出的现象。LLaMA2整个都存在这种现象 );如果将训练大模型所花费的计算花在小模型上,小模型可能会达到更低的困惑度;
2023-10-28 23:01:02 133
翻译 PDFTriage: Question Answering over Long, Structured Documents
PDFTriage:基于元数据的搜索问答
2023-09-24 14:30:33 745
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人