Young_Lb-CSDN博客

原创 Qwen模型使用trl仓库的orpotrainer训练实战

大模型，特别是在人工智能领域的深度学习模型，通常具有大量的参数和复杂的结构，这使它们具有很高的表达能力和灵活性。然而，这种复杂性也带来了一些挑战，尤其是关于模型的行为与设计者或使用者的意图是否一致的问题。这就引出了“偏好对齐”（preference alignment）的概念，其核心是确保模型的行为符合人类的价值观和目标。ORPO算法是最近提出的一种新的偏好对齐的方法，区别于传统的RLHF、PPO、DPO等方法，ORPO不需要奖励模型和额外参考模型。

2024-04-29 13:16:20 805

原创 Qwen模型使用trl仓库的ktotrainer训练实战

本文使用trl仓库的ktotrainer实现对Qwen模型的训练，使模型对齐人类偏好。之前在博客中（链接）已经大概讲解了KTO的算法思想，本文主要为实战部分。本文首先使用trl的官方示例代码跑通整个流程，之后对数据集处理部分作了修改，修改后可以使用PPO、DPO相同的数据集进行kto训练。本文的训练数据集为：comparison_gpt4_data_zh模型为：Qwen-7B-Chat文末有github仓库，仓库中还包含其他模型的kto训练脚本。

2024-04-28 15:26:43 1994 1

原创 peft库lora源码逐行解读

peft库lora源码逐行解读

2024-04-18 15:44:43 1936 1

原创 Baichuan2指令微调示例（self training code）

baichuan2 sft 微调脚本

2024-04-17 09:51:05 452 1

原创 Qwen指令微调示例（self training code）

构建自己的专属训练脚本

2024-04-16 18:06:15 1365

原创 A General Theoretical Paradigm to Understand Learning from Human Preferences

这种方法的关键假设是，通过Bradley-Terry模型得到的点奖励可以准确地代表人类的成对偏好，使得RL算法可以使用这些点奖励来优化策略，从而生成更符合人类偏好的行为或输出。在论文中提到的“使用Bradley-Terry模型将成对偏好与点奖励等同起来”指的是一种假设，即可以通过Bradley-Terry模型来量化和表示成对偏好（即在两个选项之间人类的偏好选择），并将这种偏好关系转换为点奖励（pointwise rewards），这些点奖励可以在强化学习（RL）中作为反馈信号来指导模型的学习。

2024-03-25 13:36:39 1518

原创 KTO: Model Alignment as Prospect Theoretic Optimization

本论文介绍了一种名为Kahneman-Tversky Optimization（KTO）的方法，用于利用前景理论将大型语言模型（LLMs）与人类反馈对齐。这种方法基于考虑了人类偏好（如厌恶损失）的人类意识损失函数（HALOs）。论文表明，流行的对齐方法如DPO、SLiC和PPO-Clip隐含地模拟了人类的偏执，使它们也成为HALOs。与目前的方法不同，KTO直接最大化模型生成的效用而不是人类偏好的对数似然。

2024-03-21 18:11:35 4374 1

原创 Retrieval-Augmented Generation for Large Language Models: A Survey

大型语言模型（LLM）已成为人工智能领域的重大突破，在各种任务中表现出强大的能力。然而，LLM仍面临一些挑战，例如幻觉、知识更新缓慢和答案缺乏透明度。幻觉是LLM生成错误或虚假信息的倾向。这可能发生在LLM没有足够的知识来回答问题时，或在LLM受到噪声或偏见的影响时。知识更新缓慢是LLM的一个缺点，因为它们需要大量数据来训练。这意味着LLM很难跟上不断变化的世界。检索增强生成（RAG）是一种新兴技术，旨在解决LLM面临的这些挑战。

2023-12-27 21:55:18 2544 1

原创正弦、余弦三角函数位置编码讲解、代码实现

在Transformer中，位置编码是为了引入位置信息，而位置编码的形式通常是一个正弦函数和一个余弦函数的组合，这种位置编码方式可以引入位置信息，使得Transformer模型可以处理序列数据。

2023-12-16 16:26:25 8366 4

原创 AlphaCode 2 Technical Report

本文介绍了AlphaCode 2，这是一个由Gemini (Gemini Team, Google, 2023)提供支持的性能大幅提高的新增强系统。依赖于强大的语言模型和定制的搜索和重新排序机制的组合。在与原始AlphaCode相同的平台上进行评估时，AlphaCode 2解决的问题比Alphacode多1.7倍，展现了突出的编码能力。

2023-12-08 22:56:04 1743

原创 StreamLLM：文本生成长度无限制？

本文提出的StreamLLM是注意力计算的一种改进，同时选择了注意力窗口和注意力池来计算attention，并且在计算过程中不适用原输入序列中的绝对位置，而是注意力池和注意力窗口拼接后的相对位置，作者验证在这些改进下，模型可以生成高质量且无限长的文本序列。

2023-10-31 21:53:18 970 1

原创 python读取PDF文件中文本、表格、图片

PDF文件内容抽取

2023-10-28 23:49:28 2427 1

原创龙猫之死？(Chinchilla’s Death)

训练初期，较小的模型比更大的模型训练地更快；一段时间之后，小模型训练速度放慢，并被更大的模型超越；当训练损失进入线性下降阶段时，较小的模型更陡峭地下降到高级知识，并且它们再次超越了较大的模型！（LLaMA1的7B和13B给出的现象。LLaMA2整个都存在这种现象）；如果将训练大模型所花费的计算花在小模型上，小模型可能会达到更低的困惑度；

2023-10-28 23:01:02 197 1