HanZee-CSDN博客

提出了类似于self-instruct的医疗数据生成方法，并开源了52k sft data.通过Rouge-L去重。主张多轮问询CoQ，通过好大夫开源的问答数据，清洗了一遍，然后用ChatGPT润色。提出了两阶段sft，差不多是大量的低质量多样性预料学习领域知识，医疗数据sft。分为三阶段：CPT + SFT + DPO ，公开了使用的数据清单。开源了数据清单，跑通了CPT + SFT + PPO。

2023-12-26 11:18:43 1508

原创 Zephyr：Direct Distillation of LM Alignment

具体来说是作者通过UltraFeedback这个数据集通过的prompt作为输入，让现有的模型来response，如Claude、Falcon、LLaMA等模型，这样的话，一个prompt，就对应了不同模型的多个response，然后通过GPT-4对这些prompt打分，取出每个prompt对应的分数最高的prompt，然后随机sample 一个相对来说低分的prompt。作者认为 dSFT虽然可以让模型更好的理解用户意图，但是无法与人类的偏好进行对齐。在本文中作者用GPT4去模拟人类的偏好。

2023-11-26 17:53:37 546 1

原创 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

为了量化激活值，首先要解决分布不稳定的问题，作者的办法是找出为权重与激活值每一个维度数值最大的绝对值，形成一个新的矩阵，｜x｜和|w|，然后执行下图的公式计算得到一个平滑矩阵s。但是激活值的分布是十分不稳定，由于噪声当前是不可避免的，有人发现一个token的每一个维度的分布可能差距很大，但是一个维度内部的分布相对来说是稳定。得到平滑矩阵后，为了保持结果不变，以前前向计算为x * w，现在为x * s * w/s，如下图，这样就可以达到一个平滑激活值分布的作用。

2023-09-03 21:32:40 539

原创 Platypus：Quick，Cheap，and Powerful Refinement of LLMs

但是现在的instruction tuning的方法当模型足够大的时候，时间与金钱成本很大，目前已经有了Qlora来缓解这个问题，但是作者提供了另一种解决思路。现在大模型已经取得很不错的结果，如何把大模型的能力蒸馏到小模型，并且让小模型维持相同水平层次的能力，现在还是一个难题。为了防止测试集数据泄漏，作者计算了测试集问题与训练集的相似度，把大于百分之80的数据都挑了出来，分成了三组。主要是human-design类型的问题，只有10%的数据集是LLM生成的。

2023-08-21 00:46:28 419

原创 Self-Alignment with Instruction Backtranslation

首先根据seed data，finetune baseline model:=M1,然后根据候选的unlabeld data生成instruction，但是这些QA问答对并不是完全都是高质量的，所以下一步显得十分重要。为了不断提升模型性能，首先通过模型M0finetune seed data 得到M1，通过M1筛选数据D的到D1，然后将seed data + D1 继续微调M0得到M2，作者最终只迭代到了M2.对其去重、长度过滤，移除潜在的低质量数据，然后若干个document块作为response。

2023-08-16 19:22:17 353

原创 LoRAHub：Efficient Cross-Task Generalization Dynamic LORA via dynamic LoRA Composition

如上图，作者训练多个需要复杂问题领域的LoRA，用w表示，然后在解决新的问题是，通过考虑之前训练过的所有adapter，上就是上图右侧adapter表示求和。在微调模型后，LLM从一个只会文字接龙的模型转换到以与人交流的方式输出下一个词。但是我们在处理一些复杂问题是往往还需要在其基础上做ICL+CoT/FewShot，但是这回导致上下文非常长，从成本的角度来讲，这是十分不经济的。可以看到只用了六分之一的token数就达到了与ICL+few-shot类似的性能。

2023-07-28 21:36:35 528

原创 LLaMA 2: Open Foundation and Fine-Tuned Chat Models

这是一种监督学习的方式，通过SFT后的模型，prompt model 对同一个input 生成N个 output，然后通过奖励模型对多个response利用奖励模型打分，选择得分最高的，这样就收集了更符合奖励模型篇好的数据。作者认为一个奖励模型可能不能很好的处理有用性和安全性，所以作者准备分别训练两个奖励模型，为了让奖励模型更好的理解什么是对话，两个模型都以SFT后的检查点作为初始化。引入其他的偏好数据实际上是违背了Meta标注的初衷，但是通过实验发现混合后，效果不会变差，也可以起到正则的作用。

2023-07-25 23:23:39 2191

原创 ALPAGASUS : TRAINING A BETTER ALPACA WITH FEWER DATA♢

本文证明了数据的质量的重要性要大于数量。作者通过与GPT交互的方法过滤了Alpaca52k的数据，剩下9k，对二者分别微调，通过实验对比，发现9k的性能远大于52k。过滤方式就是通过In Context Learning 的方式与ChatGPT交互，为alpaca52k数据打分，分值为0-5.第二点贡献是：作者通过混合其他开源指令数据集（Vicuna），证明了在数据集数量为9k是性能最佳。之后选取4.5分以上的数据组成alpagasus 9k数据。同时作者也验证了 3k 6k的情况，发现9k的性能最好。

2023-07-18 17:12:55 571

原创 Bring Your Data！Self- supervised Evolution of Large Language Models

基于输入文本做某种简单的转换,形成一对原始文本和变换后的文本，将这对文本送入模型,分析模型对这种转换的不变性或敏感度，将多个这样的文本对的数据聚合,形成一个总体上的不变性或敏感度分数。主要思想是:对输入文本做一些简单的转换(如添加否定词、颠倒词序等),然后比较原始文本和转换文本模型的输出(或概率分布),通过模型对这些转换的不变性或敏感度来评估它的能力。替换一些上下文句子,测量模型对最后一句话的概率分布变化,来反应模型对长距离上下文的敏感度。颠倒词序,测量模型对概率分布的变化来反应模型对词序的敏感度。

2023-07-16 19:05:40 1527

原创 Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

本文提出了一种通过线性规则筛选高质量数据的方案（有种套娃的感觉），目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者微调+验证的方案，作者认为这种方法太贵了，提出了一种通过indicator过滤数据的方法，不用微调模型就可以相对评估指令数据的方案。由于微调+推理不是那么高效，所以作者定义了一个·indicaor :=I，把这个评估的过程想成一个房价预测的过程，每个indicator就是影响房价的因素，如城市、人口，而在本文中表示指令的长度、奖励模型的分数等等。

2023-07-14 22:16:19 1054

原创 Alibi:Attention With Linear Biases Enables Input Length Extrapolation

假设一个模型在512token上做训练，在推理的时候，模型在更长的序列上表现叫做模型的外推性。Alibi的方法十分简单，如上图，在计算 attention score的时候，会对以前的分数按照与当前的位置差距进行不同程度的惩罚。假设在计算q3与k3的attention时，q3还会考虑 k1，k2的attention，其中对q3。同时，Ailibi在训练速度与推理速度上都比T5与Rotary要快，与Sin相当，内存占用上也要比前者少11%。

2023-06-29 00:20:34 987

原创 LOMO：在受限资源上全参数微调

在这篇文章中，作者的目的是探索在有限资源上的全参数微调，作者通过各种分析，发现SGD在LLM场景下的全参数微调是很有前景的。预训练后的模型损失函数的点一般位于山谷，但是如果在指令微调时，两种语料有一定的差异，可能造成模型陷入鞍点（鞍点多位于山顶与山谷中间），作者认为在预训练时期就引入指令数据可以有效的缓解此问题。现在流行的optimizer是Adam一脉，但是储存它的的中间状态，也就是optimizer state，就多占用了2倍参数的内存，dominate 了内存使用。

2023-06-24 21:18:33 819

原创 Lion:Adversarial Distillation of Closed-Source Large Language Model

在以前的方法中，普遍做法就是把teacher model 生成的数据，让student model 微调，训练完成后，学生不会百分百达到teacher model的水准，它们之间存在一个gap，而作者认为 hard sample dominate 了这个gap，所以优化方向就是关注这些hard sample，以实现高效提升效率。最后作者通过这个框架，以Alpaca 175条种子数据为基础，生成了70k数据，在LLaMA 7B上微调，达到了95%ChatGPT的水平，模型命名为Lion。

2023-05-31 15:48:46 987 1

原创 Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

作者也通过实验证明了之前的假设，在其他tokenizer的算法中，采取finetune的方法证明了其他tokenizer效果不好，甚至在LLaMA任务简单的任务效果也不好。作者把多位乘法与除法分解，以乘法为例子，把大的数放在左边，分解右面的小一点数（为了CoT长度不超过限制），分解为可学习的乘法，然后相加。在某个领域任务中，有些任务是可以学习的，有些任务是不能学习的，不可学习的任务可以分解为可学习的CoT任务。相反的，采用之前的提及的分解CoT的方法，仅在1个epoch就可以达到很好的效果。

2023-05-24 19:02:12 1501 1

原创多模态：InstructBLIP

由于作者混合多个数据集，每个数据集的大小不同，如果采用均匀采样，可能会造成大数据集underfitting，小数据集overfitting。以前的方法大多要依靠LLM的生成能力，LLM在微调text- only instruction比微调Vision- language 的表现要更让人满意。作者表示，与nlp任务不同，多模态任务由于引入额外的视觉输入，它的任务更加多样化，这似的联合多个模型是一个有挑战性的工作。联合上面的数据集，为不同的任务设置了不同的prompt template。

2023-05-14 15:46:57 2078

原创混合精度是如何加速大模型训练的？

但是，较低的精度可能会影响某些计算的准确性，或者在某些情况下导致舍入误差。在通常的科学计算中，都是以float-64精度（也就是double）计算的，它用来表示数值的位数更多，精度更大，损失更小，在深度学习中为什么我们很少用float-64而是去采用？这里我们发现，混合精度的在测试集上面的表现要比32还高，原因可能与batch小一点是一个道理，引入了一些误差，起到了正则化的效果。32为的最大数值是：340,282,000,000,000,000,000,000,000,000,000,000,000。

2023-05-13 22:42:20 1601

原创多模态：MiniGPT-4

为了实现这个假设，作者采用了号称具有ChatGPT百分之90能力的Vicuna13B作为语言模型，采用与BLIP-2相同的视觉模块（ViT-G/14的视觉Encoder和Q-former），然后在用linear继续align视觉特征与文字特征。大模型最近发展的也十分迅速，大模型的涌现能力可以很好的迁移到各类任务，于是作者猜想这种能力可不可以应用到多模态模型，让它具有与GPT-4类似的能力。其中训练分为两个阶段，第一阶段为初始化阶段，在大量的 raw text-image 训练学习视觉-文本先验知识。

2023-05-13 00:39:49 1139

原创多模态：BLIP-2论文讲解

通过第一阶段训练的q- former，可以初步的align 视觉与文本，为了进一步的alignment，当q-former输出 query 后，在后面链接一层linear，然后送入LLM（也可以加上prompt），损失函数采用gpt 预训练阶段的文字接龙损失。视觉模型可以提供高质量的视觉表示，语言模型可以一共强大的语言生成与zero-shot迁移能力。它可以看作冻结后语言模型与视觉模型之间的强梁，可以把视觉信息中对语言模型有用的信息喂给语言模型，让语言模型生成我们想要的文本。

2023-05-11 23:09:15 2214 3

原创多模态速读：ViLT、ALBEF、VLMO、BLIP

在当时多模态领域研究中，最常见的是通过CNN提取特征然后通过目标检测网络提取一些候选框的特征，作者指出这种方法时间很长，提出了ViLT，文本与图像分别只通过一个Linear Embedding（在当时VIT刚发布）就可以达到与前者类似的性能，并且时间大大减少了。这篇文章与第一篇是同时期的文章，只差了一个月，所以作者认为用目标检测提取候选框的方法提取视觉特征，这种方法不能很好的与文本特征对齐，由于目标检测模型一般为pre-training model，文本输入与图像输入二者之间没有一个端到端对齐的过程。

2023-05-09 17:38:45 1723

原创 CLIP : Learning Transferable Visual Models From Natural Language Supervision

之后采用对比学习的形式对这两组特征做点乘，结果作为模型的logits，对角线的元素表示了对应的文本与图像的乘积，优化目标就是让对角线的元素softmax后的结果趋近于1，其他趋近于0，分别以图像与文本两个维度做cross_entropy_loss，然后对二者loss加权求和计算总loss。在这篇文章，作者收集了4亿个（文本、图像）的数据对通过对比学习的方式对模型进行训练，发现在很多领域如OCR、分类等都能表现出很好的Zero-shot能力，有很好的泛化性，还发现模型的尺寸与精度成正比。

2023-05-08 20:55:50 931

原创 Zero系列三部曲：Zero、Zero-Offload、Zero-Infinity

于是现在的主流方法是采用混合的训练方法，首先以float16前向计算计算loss，当在计算梯度的时候，会把float16为转换为float32完成计算，然后在转换为16位完成后续的反向传播，这样似乎很好的解决了问题，速度、精度、稳定性三者兼得。假设模型参数为¥，那么GPU就需要存储float16模型参数2¥，梯度2¥，由于采用混合精度训练，还需要float32的模型参数4¥用来计算梯度，由于用的adam，还需要维护4¥的动量与4¥的梯度方差，那么加在一起就是（2+2+（4+4+4））¥。

2023-05-06 15:10:25 7215 1

原创 Distilling Step-by-Step: 可以用更少的训练数据与模型尺寸战胜同级别的LLM！

为了解决上述问题，作者提出了Distilling Step-by-Step，可以通过用更少的数据、更小模型战胜在同等数据集上的大模型。作者提到部署大模型存在时延、内存、算力等挑战，所以目前的趋势是微调、蒸馏一个不是很大的语言模型，如Vicuna、Alpaca，但是获取特定下游任务的数据是困难的、昂贵的。这样就可让小模型既可以学到这个任务怎么做，怎可以学到为什么这么做，增加小模型对特定任务的理解。输入问题，把output改为答案+答案的解题思路。在计算损失函数的时候，对二者加权计算。

2023-05-04 17:01:19 1149

原创 WizardKM:Empowering Large Language Models to Follow Complex Instructions

为了验证这个方法的有效性，把用上述方法生成的数据，通过Llama7B微调，把它叫做WizardLM，然后与Alpaca、Vicuna进行对比。作者通过Alpaca的175条初始化数据通过Evol-Instrcut方法生成250k条数据，为了公平起见，作者在这些数据中sample了70k数据进行对比。然后把问题送入ChatGPT获得qa数据对，然后对数据进行筛选。作者表明当前nlp社区的指令数据比较单一，大部分都是总结、翻译的任务，但是在真实场景中，人们有各式各样的需求，这限制了模型的通用性。

2023-04-27 15:31:42 1393 1

原创 Huggingface：高效多GPU训练

同样执行tensor分割操作，有些类似于TP，除了整个tensor被重建用于前向传播与反向传播，因此模型不需要被更改。：Tensor并行，把一整个tensor分成多份，每份被分配在指定的GPU上，在这个过程中，每份单独在不同的gpu上单独的运行，并最终同步结果。：数据并行，相同的步骤多次执行，把一个batch的数据分成多份，该处理是并行的，所有步骤都会在结束时同步。：把模型的一个层或者多个层放在一个单独的GPU，每个gpu并行处理模型的不同层。：是基本ZeRO概念的另一个名称，用于各种其他ZeRO实现。

2023-04-26 10:36:05 2251

原创基于人类反馈的强化学习(RLHF)在LLM领域是如何运作的？

但是当我们与聊天机器人去一步步互动（agent与环境）的时候，我们不知道什么样的答案是最好的，但是可以用一些学习的策略，去验证它是好是坏，比如说agent与环境交互（我们像chatgpt提问），agent反馈了一个action（next token 或者下一组tokens），然后通过奖励模型（也可以是LLM），得到一个好坏的评分，强化学习的目标就是最大化这个奖励。奖励模型的输入是agent的action（chatgpt回答的内容），然后返回一个标量，这个标量的数值代表人的偏好程度。

2023-04-25 21:13:25 1548

原创 Huggingface的GenerationConfig 中的top_k与top_p详细解读

举个例子，在使用语言模型生成「这个周末天气很」的句子时，top-k保留概率最高的三个单词为「好」「热」「冷」，此时将剩余单词进行概率归一化，把它们的概率设定为0，之后在三个保留的单词中随机选择一个，比如选择了「好」后，这个句子就变成了「这个周末天气很好」。从这个例子可以看出，top-k和top-p可以结合使用，确保我们生成的语句既具有多样性，又具有合理性，同时可以吸引读者的注意力。接下来，我们可以使用top-p的方法，保留概率的累计和达到0.9的单词，也就是选取橙子、苹果、草莓三种水果。

2023-04-25 00:16:24 10148 7

原创 Huggingface处理数据排除异常值

第三步通过filter过滤掉。

2023-04-21 16:44:15 372

原创技术报告：Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

与原始模型的不同是没有input（我觉得这样更符合中国方式的问答），如果下游数据input中含有数据，通过 \n合并instruction与input，其中\n被视为一个额外的。然后作者说这两个模型是基于英文预料训练的，词表中的中文只有几百个，中文性能不好，然后作者通过扩充词表等方法证明了LLaMA与Alpaca在其他语言可以有提高表现的可能性。指令微调在获得预训练模型后，我们还使用LoRA进行高效的微调，增加了可训练参数的数量。初步实验展示，在表达更清楚的同时，所需要的token长度几乎少了一倍。

2023-04-20 16:22:41 1405

原创 Prefix-tuning、Adapter、LLaMA-Adapter的流程图与伪代码实现

流程图：代码：流程图：代码：流程图：

2023-04-19 15:39:02 1127

原创 LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-into Attention论文解读

为了避免在训练初期的噪声，修改插入层的普通注意机制为零初始注意力，有一个可学习的门控因素。作者把原始的Vanilla Attention换成了 Zero-init Attention，为了减少噪声，作者引入了一个可学习的Zero Gating，把它初始化为零，与前缀做乘法。如上图，在原始方法中，预测黄色的token，需要考虑黄色与它的前面所有的token，当给这一层网络加上前缀后（采用随机初始化），在模型训练初期，可能会引入噪声，造成前期训练不稳定。作者认为以这种方法，Pl可以高效的指导每层Tl的输出。

2023-04-18 23:24:35 1169

原创 huggingface TRL是如何实现20B-LLM+Lora+RLHF

如下图，这里Reference logits作为奖励模型，获得得分，与InstructGPT不同（一个GPT3，一个6B的），作者是用了两个相同的模型，只不过reference model 去掉了adapter。在以前的 RLHF，我们需要复制两个模型（具体如下图，在损失函数公式上也有体现）的到每一个GPU上，随着模型尺寸的增大，这对单卡的情况很吃不消的。如果你使用AdamW优化器，每个参数需要8个字节(例如，如果你的模型有1B个参数，模型的完整AdamW优化器将需要8GB的GPU内存来源)。

2023-04-18 00:03:32 2373

原创 InstructGPT：Training language models to follow instrcutions with human feedback

现在LLM可以被prompt来完成一系列的下游任务，然而这些模型也总会产生一些用户不想要的结果，如捏造事实，产生偏差，或者生成负面的数据。作者认为原因可能出现在评估函数，由于LLM的评估函数可能是完形填空（Bert系列）或者文字接龙（GPT系列），而我们想让他完成QA，所以作者认为LLM没有align用户用的想法。于是作者就想让模型对人们更有帮助、无害，缓解上面的所说的偏差。

2023-04-17 15:09:45 535

原创推荐系统：基础知识总结

上的考虑，在精排阶段，一般会使用复杂的模型与特征，比如模型会使用深度神经网络，特征空间非常大，如果精排对上百万的候选数据进行排序，时间成本是非常大的，因此加入了召回层，利用少量的特征与简单的模型或规则对候选集进行快速筛选（一般筛选到1000个左右），这样就可以大大的减少精排阶段的时间消耗。1、首先聊的是最简单的规则，“捆绑”，电商场景，乒乓球拍配乒乓球，游戏机配游戏卡，手机配手机壳，这都是一些用户可能高频出发的高关联项，这个其实可以通过关联规则之类的挖掘出来，例如“啤酒和尿布”的经典例子。

2023-04-08 20:42:36 2015 1

原创 P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

以前的方法是输出一个tensor，然后在词表相似度对比，作者通过实验证明直接引入一个linear的效果更好，但是会略微增加参数量。这篇文章的主要贡献是基于前缀学习的一个新的经验性的发现，并提升了微调任务的通用性并且提升了在底参数下的性能。：作者认为数据prompt的长度与任务的复杂度有关，复杂一些的任务可能需要更多的token，反之则相反。：主要是说在多任务上联合训练的效果要比单独的要好。

2023-04-08 17:08:33 774

原创 P-Tuning : GPT Understands,Too 论文笔记

然而GPT-3的横空出世，通过prompt的形式在当时摘下了许多任务的sota，但是找到一个好的prompt犹如大海捞针，甚至还可能会导致性能下降，作者任务离散的prompt可能不是最好的结果。在这篇文章中，作者提出了一种新的方法：P- tuning，一种自动寻找最优的prompt的方法，它可以弥补GPT在NLU任务的差距。其中hi为可训练的tensor，然后通过特定的下游数据，冻结LLM参数，只训练hi，然后就得到了在特定任务下的最优的prompt，实验也证明了要比离散的prompt效果要好。

2023-04-07 22:01:40 1416 2

原创 Prefix-Tuning: Optimizing Continuous Prompts for Generation

在千亿级别的参数背景下，针对不同的下游任务，需要加载不同的权重并且在训练的时候需要重新设计优化目标等等步骤，这是非常不经济的，所以作者提出了Prefix- tuning，一个适用于NLG的轻量化可以替换Fine-tuning的方法。但是作者认为prompt它是一个离散的值，它可能不是一个明显的instructions，于是作者的方法是用一个连续的字符来替换之前的离散的instruction，这可能更具有表现力。这方法类似于lora，在特定的任务上，我只需要选择不同训练好的prefix。

2023-04-06 20:06:49 584

原创 Self-Instruct：Aligning Language Model with Self Generated Instructions

作者一开始的task pool 一共有 175个task（一个instruction 和一个 instance），每次从task pool中提供sample 8个，有6个是从task pool sample的，2个通过大模型生成的。但是也存在两个问题，人工成本过高，标注的数据不够多样性，为了解决这类问题，作者提出了Self- Instruction，一个半监督通过模型本身自动生成 instruction signals 的方法来finetune模型。(例如，图像，图片，图表)，通常不能由语言模型处理。

2023-04-05 16:25:02 1760

原创 LLaMA：Open and Efficient Foundation Language Models

这项工作的重点是训练一系列语言模型，通过对比通常使用的更多的token进行训练，在各种推理预算下达到最佳性能。由此产生的模型被称为LLaMA，参数范围从7B到65B，与现有的最好的LLM相比，性能具有竞争力。在大多数情况下，我们重复使用已用于训练其他 LLM 的数据源，但仅限于使用公开可用且与开源兼容的数据。最近的一项研究表明，在有限的算力下，表现最好的模型不是参数最大的，而是小一点模型搭配了更多数据。在大规模数据下训练的大模型，已经展示了很好的表现，当模型足够大的时，模型会出现一个。

2023-04-02 17:18:06 1056

原创 Lora：Low-Rank Adapation of Large Language models

W或W0指的是预训练的权重矩阵，∆W指的是适应过程中的累积梯度更新。这个额外的矩阵是支持热‘插拔的’，是指我可以在不同的下游任务应用不同的矩阵，比如我想做词性标注，我只需要原始的Pre-train model 加上在词性标注数据上finetune 的 BA就可以了，并且速度不受影响。作者假设在微调时，Pre-train model的权重矩阵在过度更新参数时，它的权重矩阵的秩是很低的，于是作者的想法就是把一些Dense layer的权重替换成低秩分解矩阵，然后作者发现效果也不错。

2023-04-02 01:31:52 1262

汽车产品数据https://tianchi.aliyun.com/?spm=5176.12281973.J_3941670930

空空如也