nlp之路-CSDN博客

原创 OpenAI o1的开源平替版self-replay RL来了！

引人注目的是，rStar将LLaMA2-7B在GSM8K数据集上的准确率从12.51%提高到63.91%，将Mistral-7B的准确率从36.46%提高到81.88%，将LLaMA3-8BInstruct的准确率从74.53%提高到91.13%。相互一致性反映了在缺乏监督的情况下的常见人类实践，其中同行（即两个SLMs）对推导出的答案的一致性表明了更高的可能性是正确的。然而，所达到的性能往往取决于LLM的固有能力，对于SLM来说，它们较弱的指令遵循能力和不可靠的自我奖励可能会误导自我改进。

2024-09-15 16:40:35 463

原创 LLM新里程碑！OpenAI o1！

传统LLM的scaling law主要是模型数据量和模型参数量，侧重pretrain和postpretrain阶段，但由于自然语言符合zipf’s law，一味增多训练数据，其实还是强者恒强，补充的知识大概率原来的训练数据就有的，对模型带来新信息的边际效能会逐渐递减，而从开源模型和闭源模型之间的差距在逐渐缩小也可以看出，再依靠大力出奇迹去卷数据量卷参数量，不太好使了。，告诉模型去拆碎对prompt的理解，并考虑多个方法去产生最后的答案，产生答案并作为可见的token后，模型删掉之前的。

2024-09-15 16:37:46 1076

原创基于困惑度相关性的预训练数据质量调优

高质量的预训练数据通常被视为高性能语言模型（LLMs）的关键。然而，由于数据选择实验需要昂贵的预训练运行，对预训练数据的理解进展缓慢。我们提出了一个框架，避免了这些成本，无需我们自己的LLM训练即可选择高质量的预训练数据。我们的工作基于一个简单的观察：许多预训练文本上的LLM损失与下游基准性能相关，选择高相关性的文档是一种有效的预训练数据选择方法。

2024-09-12 13:36:14 774

原创如何设计能让基于LLM的embedding模型更有效？

这种策略的优势在于能够从LLM的不同层中捕获和整合信息，这可能包含关于输入文本的不同方面的语义信息。在搜广推场景，双塔模型是业界标配，尤其是搜索引擎、推荐系统和语义文本相似性场景，普遍需要获得user和item / query和doc 好的embedding表示，便于大规模高效计算，主要是通过对比表示学习实现。多层可训练池化（Multi-Layers Trainable Pooling）策略是论文中提出的一种新的池化方法，旨在从大型语言模型（LLM）的所有隐藏层中捕获更丰富的语义信息。

2024-09-11 15:26:14 1064

原创北大&阿里最新LLM偏好学习/反馈学习论文综述

大型语言模型（LLMs）展现出强大的能力，但要实现与人类偏好的对齐，往往需要少量数据来有效提升性能。研究领域分散，方法复杂，不同方法间的关系尚未充分探索。本文提出了一个统一框架，将偏好学习策略分解为模型、数据、反馈和算法四个组成部分，以促进对现有算法的深入理解并探索不同策略的协同优势。引言：介绍了LLMs的能力和偏好对齐的必要性。定义和公式化：定义了偏好学习的目标和过程。统一视角：提出了一个统一的框架，将偏好学习分解为四个组成部分。并对目前的反馈偏好学习进行了系统的总结归纳偏好数据。

2024-09-10 10:53:20 803

原创 LLM的上下文学习中示例样本的作用研究

文章探讨了大型语言模型（LLMs）在回归任务中是如何利用上下文示例进行学习（Learning）和知识检索（Retrieval）的，并提出了一个评估框架来分析这两种机制。

2024-09-09 12:54:46 574

原创 RLPF：用于LLM用户摘要的预测反馈

文章介绍了一种新的强化学习方法 RLPF（Reinforcement Learning from Prediction Feedback），用于优化大型语言模型（LLMs）生成的用户摘要，以提高下游任务的性能。

2024-09-09 12:48:42 620

原创最新LLM的attention head的机制研究报告

最近，Zifan Zheng等人在arXiv上发表了一篇论文《大型语言模型的注意力头：一项调查》，对LLMs中的注意力头进行了深入的探讨和分析。未来的研究可以探索更复杂的任务，研究提示的鲁棒性，开发新的实验方法，并构建一个全面的可解释性框架。2. **需要建模的方法（Modeling-Required）**：构建新模型来深入研究特定头的功能，如探针方法和简化模型训练。1. **无需建模的方法（Modeling-Free）**：通过修改模型的潜在状态来观察输出变化，如激活替换和消融研究。

2024-09-09 11:30:48 189