![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
文章平均质量分 95
clvsit
人生不是戏剧,而我亦非主角
展开
-
论文阅读:Be like a Goldfish, Don‘t Memorize! Mitigating Memorization in Generative LLMs
大型语言模型会记忆和重复训练数据,从而造成隐私和版权风险。为了减少记忆,作者对 NSP 训练目标进行了微妙的修改,称之为 goldfish loss。在训练过程中,随机抽样的 token 子集将被排除在损失计算之外。这些被剔除的 token 不会被模型记忆,从而防止逐字复制训练集中的完整 token 链。作者进行了大量实验来训练十亿规模的 Llama-2 模型,包括预训练的和从头开始训练的,结果表明可提取的记忆量显著减少,对下游基准几乎没有影响。原创 2024-07-09 16:53:08 · 879 阅读 · 1 评论 -
RoPE + 位置线性内插
RoPE 位置编码在超出一定的序列长度后,模型生成的 PPL 指标会爆炸,因此直接外推的效果很差。Meta 的研究团队在论文《Extending Context Window of Large Models via Positional Interpolation》中提出了“位置线性内插”(Position Interpolation,PI)方案,来扩展 LLM 的 context length。原创 2024-05-17 17:45:06 · 1160 阅读 · 0 评论 -
RoPE 相对位置编码解读与外推性研究
RoPE(Rotary Position Embedding)位置编码是大模型中最常见的位置编码之一,是论文 Roformer: Enhanced Transformer With Rotary Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。谷歌的 PaLM 和 Meta 的 LLaMA 等开源大模型都是 RoPE 位置编码。原创 2024-05-16 22:49:40 · 1445 阅读 · 0 评论 -
论文阅读:Self-Consistency Improves Chain of Thought Reasoning in Language Models
提出了自我一致性方法,先使用思维链 prompt,然后通过采样等手段获取多条输入,汇总答案(根据投票以及加权等方式),并选择最一致的答案。该方法受限于固定的答案集,并且计算成本较高(多条输出、推理路径)。但在算术和常识推理任务上能够提高准确性。原创 2024-05-14 17:12:32 · 1295 阅读 · 1 评论 -
论文阅读:Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning 数据子集挑选方法
引入了 DIVERSEEVOL,这是一种用于高效调整 LLM 指令的自进化方法。DIVERSEEVOL 依靠迭代方案,利用 K-Center 策略从大量指令数据中选择不同的子集,从而逐步完善自身,而无需寻求任何外部监督。经验结果表明,该方法只用了不到原始数据大小的 8%,就能达到或超过强大的基准性能。未来的工作可以在更大的指令数据集上利用该方法,以获得可能更加精细的结果。在 DIVERSEEVOL 所奠定的基础上,更先进的多样化采样算法也有望进一步提高模型性能。限制。原创 2024-05-12 23:02:39 · 813 阅读 · 0 评论 -
LLM 可以从简单数据中学习吗?
在这之后训练的模型的 loss 曲线都是阶梯状,按照记忆假说和先前分析的内容来看,llama2、vicuna-13b-v1.5 等模型的对话、闲聊能力得到了提升(也有可能是 GPT4all 数据集让模型闲聊能力下降),在我们所认为的“高质量”数据集上进行训练,模型只是记住了对话内容,而非真正意义上地学习(训练数据集对于模型来说非常简单)。起初,这似乎是不可能的。早期训练的模型的 loss 曲线都是正常,可惜的是早期的训练数据被删了,无法准确地判断是数据质量的因素,还是基底模型的因素。原创 2024-05-11 00:00:41 · 932 阅读 · 0 评论 -
论文阅读:The Unreasonable Ineffectiveness of the Deeper Layers 层剪枝与模型嫁接的“双生花”
作者实证研究了针对流行的开放式预训练 LLM 系列的简单层修剪策略,发现在不同的 QA 基准上,直到去掉一大部分(最多一半)层(Transformer 架构)后,性能的下降才会降到最低。为了修剪这些模型,作者通过考虑各层之间的相似性来确定要修剪的最佳层;然后,为了“治愈”损伤,进行了少量的微调。特别是 PEFT 方法,尤其是量化和低秩适配器(QLoRA),这样每个实验都可以在单张 A100 GPU 上完成。原创 2024-05-10 22:06:15 · 797 阅读 · 0 评论 -
论文阅读:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
语言模型的推理成本很高,这主要是由于加载 key 和 value 所带来的内存带宽开销。MQA 降低了这种开销,但代价是降低了模型的容量和质量。作者建议将 MHA 模型转换为 MQA 模型,只需原来预训练计算量的一小部分。此外,还引入了GQA,它是 MQA 和 MHA 的插值,能以与 MQA 相当的速度达到接近 MHA 的质量。原创 2024-05-08 18:46:50 · 1128 阅读 · 1 评论 -
论文阅读:RHO-1:Not All Tokens Are What You Need 选择你需要的 Tokens 参与训练
**简要介绍**:作者认为“**并非语料库中的所有 token 对语言模型训练都同样重要**”,初步分析深入研究了语言模型的 token 级训练动态,揭示了不同 token 的不同损失模式。利用这些见解,推出了一种名为 RHO-1 的新语言模型,采用了选择性语言建模 (SLM),即有选择地对符合预期分布的有用 token 进行训练。原创 2024-05-07 16:37:30 · 1391 阅读 · 0 评论 -
论文阅读:《Sequence can Secretly Tell You What to Discard》,减少推理阶段的 kv cache
研究发现在 LLaMA2 系列模型上:(i)相邻 token 的 query 向量之间的相似度非常高,(ii)当前 query 的注意力计算可以完全依赖于一小部分前面 query 的注意力信息。基于这些观察结果,作者提出了一种无需重新训练的 KV 缓存驱逐策略 CORM,通过重复使用最近的 query 注意力信息来显著减少显存占用。通过广泛的评估,作者证明 CORM 可以将 KV Cache 的推理显存使用量减少多达 70%,而在各种任务中不会出现明显的性能下降。原创 2024-05-07 00:02:42 · 1232 阅读 · 0 评论 -
prompt 工程整理(未完、持续更新)
工作期间会将阅读的论文、一些个人的理解整理到个人的文档中,久而久之就积累了不少提示工程(Prompt Engineering)关注提示词开发和优化,帮助用户将大语言模型(Large Language Model,LLM)用于各场景和研究领域。原创 2024-04-14 00:20:11 · 1053 阅读 · 0 评论