- 博客(8)
- 资源 (17)
- 收藏
- 关注
原创 OpenAI o1的开源平替版self-replay RL来了!
引人注目的是,rStar将LLaMA2-7B在GSM8K数据集上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8BInstruct的准确率从74.53%提高到91.13%。相互一致性反映了在缺乏监督的情况下的常见人类实践,其中同行(即两个SLMs)对推导出的答案的一致性表明了更高的可能性是正确的。然而,所达到的性能往往取决于LLM的固有能力,对于SLM来说,它们较弱的指令遵循能力和不可靠的自我奖励可能会误导自我改进。
2024-09-15 16:40:35 463
原创 LLM新里程碑!OpenAI o1!
传统LLM的scaling law主要是模型数据量和模型参数量,侧重pretrain和postpretrain阶段,但由于自然语言符合zipf’s law,一味增多训练数据,其实还是强者恒强,补充的知识大概率原来的训练数据就有的,对模型带来新信息的边际效能会逐渐递减,而从开源模型和闭源模型之间的差距在逐渐缩小也可以看出,再依靠大力出奇迹去卷数据量卷参数量,不太好使了。,告诉模型去拆碎对prompt的理解,并考虑多个方法去产生最后的答案,产生答案并作为可见的token后,模型删掉之前的。
2024-09-15 16:37:46 1076
原创 基于困惑度相关性的预训练数据质量调优
高质量的预训练数据通常被视为高性能语言模型(LLMs)的关键。然而,由于数据选择实验需要昂贵的预训练运行,对预训练数据的理解进展缓慢。我们提出了一个框架,避免了这些成本,无需我们自己的LLM训练即可选择高质量的预训练数据。我们的工作基于一个简单的观察:许多预训练文本上的LLM损失与下游基准性能相关,选择高相关性的文档是一种有效的预训练数据选择方法。
2024-09-12 13:36:14 774
原创 如何设计能让基于LLM的embedding模型更有效?
这种策略的优势在于能够从LLM的不同层中捕获和整合信息,这可能包含关于输入文本的不同方面的语义信息。在搜广推场景,双塔模型是业界标配,尤其是搜索引擎、推荐系统和语义文本相似性场景,普遍需要获得user和item / query和doc 好的embedding表示,便于大规模高效计算,主要是通过对比表示学习实现。多层可训练池化(Multi-Layers Trainable Pooling)策略是论文中提出的一种新的池化方法,旨在从大型语言模型(LLM)的所有隐藏层中捕获更丰富的语义信息。
2024-09-11 15:26:14 1064
原创 北大&阿里最新LLM偏好学习/反馈学习论文综述
大型语言模型(LLMs)展现出强大的能力,但要实现与人类偏好的对齐,往往需要少量数据来有效提升性能。研究领域分散,方法复杂,不同方法间的关系尚未充分探索。本文提出了一个统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个组成部分,以促进对现有算法的深入理解并探索不同策略的协同优势。引言:介绍了LLMs的能力和偏好对齐的必要性。定义和公式化:定义了偏好学习的目标和过程。统一视角:提出了一个统一的框架,将偏好学习分解为四个组成部分。并对目前的反馈偏好学习进行了系统的总结归纳偏好数据。
2024-09-10 10:53:20 803
原创 LLM的上下文学习中示例样本的作用研究
文章探讨了大型语言模型(LLMs)在回归任务中是如何利用上下文示例进行学习(Learning)和知识检索(Retrieval)的,并提出了一个评估框架来分析这两种机制。
2024-09-09 12:54:46 574
原创 RLPF:用于LLM用户摘要的预测反馈
文章介绍了一种新的强化学习方法 RLPF(Reinforcement Learning from Prediction Feedback),用于优化大型语言模型(LLMs)生成的用户摘要,以提高下游任务的性能。
2024-09-09 12:48:42 620
原创 最新LLM的attention head的机制研究报告
最近,Zifan Zheng等人在arXiv上发表了一篇论文《大型语言模型的注意力头:一项调查》,对LLMs中的注意力头进行了深入的探讨和分析。未来的研究可以探索更复杂的任务,研究提示的鲁棒性,开发新的实验方法,并构建一个全面的可解释性框架。2. **需要建模的方法(Modeling-Required)**:构建新模型来深入研究特定头的功能,如探针方法和简化模型训练。1. **无需建模的方法(Modeling-Free)**:通过修改模型的潜在状态来观察输出变化,如激活替换和消融研究。
2024-09-09 11:30:48 189
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人