自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 PromptReps: 解锁LLM的检索力量

该方法通过提示大型语言模型(LLMs)生成查询和文档的表示,用于有效的文档检索。这篇论文的核心贡献是提出了一种新的零样本文档检索方法,该方法利用LLMs的提示能力来生成用于检索的密集和稀疏表示,而无需额外的训练。: 在BEIR数据集上,PromptReps在不使用任何额外训练的情况下,通过提示生成的密集和稀疏表示,取得了与训练有素的LLM嵌入方法相似或更高的检索效果。: PromptReps是一种简单而有效的方法,它通过提示LLMs生成密集和稀疏表示,用于零样本文档检索,无需任何额外的无监督或有监督训练。

2024-09-04 12:46:03 491

原创 【LLM大模型论文日更】| QAEA-DR:一个用于密集检索的统一文本增强框架

具体来说,定理III.3和定理III.4分别说明了在理想条件下,生成的文本向量要么保持要么提高检索过程的保真度。具体来说,生成的文本向量在保持或提高目标文本与查询向量的相似度的同时,降低非目标文本与查询向量的相似度。:定理III.4证明了将问答对向量和事件向量结合到文本增强框架中,比仅使用一种类型的生成文本向量更能有效提高检索保真度。:在检索过程中,查询向量在扩展后的向量数据库中寻找相似度最高的向量。生成的向量由于信息密度高,与查询向量的相似度高于原始文本向量,从而提高检索性能。

2024-08-23 10:56:28 982

原创 【LLM大模型论文日更】| 格式胜过内容:揭示大型语言模型的提示效应

然后将两种示例结合起来,形成一个完整的示例集。:设计一个新的集成提示模板,在提示模板中添加示例级指令,描述后续示例具有相似的词或相似的句法。:计算了不同提示部分之间的注意力权重,发现LLMs在处理描述性名词时的注意力权重并不一定大于随机名词,表明LLMs可能并不真正关心描述的实际内容。综上所述,集成提示框架通过其特定的格式,能够更有效地引导LLMs的注意力,从而提高其在各种NLP任务中的性能。:通过计算不同提示部分的注意力权重,发现LLMs在处理描述时并不关心描述的实际内容,而更关注提示的格式。

2024-08-21 15:03:29 940

原创 【LLM大模型论文日更】| LLMs在预训练和微调阶段的性能变化和它们之间的相互关系

研究目的:探索预训练与微调之间的关系,特别是它们是如何共同影响模型最终性能的。研究方法:通过在18个数据集上微调多个预训练模型的中间检查点来进行实验分析。主要发现持续的预训练能够在微调后以一种不明显的方式提升模型性能。这句话的意思是,在大型语言模型(LLMs)的预训练阶段,即使模型在预训练过程中对某些任务的性能提升不明显,持续进行预训练仍然可以在后续的微调阶段带来潜在的性能提升。换句话说,

2024-08-18 14:05:57 857

原创 【LLM大模型论文日更】| 大型语言模型用于模拟搜索用户行为

由于成本效益和可再现性方面的优势,用户模拟已成为信息检索系统面向用户评估的一种有前景的解决方案。然而,准确模拟用户的搜索行为长期以来一直是一个挑战,因为用户在搜索中的行为非常复杂,并受到学习、推理和规划等复杂的认知过程驱动。最近,大型语言模型(LLM)在模拟人类智能方面展示出了显著的潜力,并被用于构建各种任务的自主代理。然而,利用LLM模拟搜索行为的潜力尚未完全探索。在本文中,我们介绍了一种基于LLM的用户搜索行为模拟器,称为USimAgent。

2024-08-16 17:52:45 942

原创 稠密检索的规模艺术:模型、数据与性能的精准匹配

Scaling Laws已经在广泛的任务中被观察到,特别是在语言生成中。先前的研究发现,大型语言模型的性能和模型、数据集的大小存在可预测的模式关系。这有助于我们有效地设计训练策略,特别是在大规模训练越来越需要丰富的计算资源的时候。然而,在密集检索中,这种Scaling Laws尚未得到充分的探索。在本研究中,我们研究了Scaling如何影响密集检索模型的性能。我们使用不同参数量来实现密集检索模型,并使用不同数量的标注数据来训练它们。本文使用对比熵作为评价指标,与离散排序指标相比,它是连续的,因此可以。

2024-08-15 21:18:57 917

原创 【LLM大语言模型-RAG系列】第⼀部分 | 01

2024-08-14 21:32:07 204

原创 【LLM大语言模型-开篇】LLM入门实践指南

"LLM入门实践指南"是一个通过代码实践,为大模型入门读者提供全面且较为深入的大模型技术视角的教程。

2024-08-14 21:24:35 311

原创 为什么使用大模型API时,output token 的价格比 input token 更贵?

存在一个理想的操作与数据比率(ops:bytes ratio),这决定了每读取一份数据(例如FP16/BF16格式)应该执行的FLOPs数量。:输入token和输出token在内存中的占用,例如QKV(Query, Key, Value)矩阵的大小,基本上是相似的。但是,输出token可能采用KV Cache的形式,这是一种优化技术,用于存储和重用之前计算的键值对,以减少重复计算。:对于输入和输出相同数量的token,模型的浮点运算次数(FLOPs)大致相同,大约是2ND,其中N代表模型的参数量。

2024-08-13 15:13:47 408

转载 转载:LLM做Sentence Embedding的通用方案

最近在做RAG相关的项目,在做检索模型的时候,由于我的需求更偏向于主题检索且需要较大的通用性。现有的检索模型bge、m3e等更偏向于语义匹配,即使针对主题做模型微调也没有很好的通用性,不能很好的完成需求。尝试直接使用LLM做Embedding,主要思想是将输入添加Prompt(将输入总结成一个词),然后使用最后一个词的最后一层作为整个输入的Embedding。这里细读下面的2篇文章,并在中文的主题分类数据集上进行测试(这里使用公开数据集-科大讯飞的长文本分类),之后希望能在项目中有较好的应用。

2024-08-06 14:31:07 40

原创 自蒸馏技术在语言模型微调中的桥梁作用

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了突破性进展,但微调这些模型以适应特定任务时,常常难以平衡性能和保持通用指令遵循能力。在本文中,认为任务数据集和LLM之间的分布差距是主要原因。论文提出自蒸馏微调(SDFT)方法,通过模型自身生成的数据集来指导微调,以减少灾难性遗忘(catastrophic forgetting)并保持模型的有用性和安全性。实验结果表明SDFT在多个基准测试中有效,与普通微调相比,SDFT在下游任务上取得了可比或更优越的性能。

2024-08-05 19:08:25 839

原创 超越标注:合成数据引领下的文本嵌入技术革新

Doc2query(Nogueira 等人,2019)、InPars(Bonifacio 等人,2022)和 Promptagator(Dai 等人,2022)生成未标记文档的综合查询,然后将其用于文档扩展或模型训练。SGPT (Muennighoff, 2022)、GTR (Ni et al., 2022b) 和 Udever (Zhang et al., 2023a) 凭经验证明了文本嵌入的缩放规律,但它们的性能仍然落后于 E5 (Wang等人,2022b)和 BGE(Xiao 等人,2023)。

2024-08-04 19:41:51 613

原创 数据旋律与算法和谐:LLMs的微调交响

大型语言模型(LLMs)通过海量预训练token和参数展现出多样化的能力,如数学推理、代码生成和指令跟随等。这些能力可以通过监督式微调(SFT)进一步增强。研究者提出了四个研究问题,探讨模型性能与数据量、组成比例、模型大小和SFT策略等因素之间的关联。实验表明不同能力随数据量增加的扩展性不同,大型模型在相同数据量下通常表现更好(数学推理和代码生成随着数据量的增加而不断提高,而一般能力在大约一千个样本后趋于稳定)。数据组合在有限数据条件下可以增强不同能力,但在数据充足时可能导致性能冲突。

2024-07-18 16:20:59 1043

原创 穿越文字的迷宫:探索语言模型作为世界模拟器的潜力与局限

领域:世界模型机构:亚利桑那大学等多机构发表: ACL 2024这篇论文的标题是《Can Language Models Serve as Text-Based World Simulators?》,作者们探讨了当前的语言模型(Language Models,简称LMs)是否能够作为文本基础的世界模拟器使用。文本基础的世界模拟器是指能够通过文本描述来正确预测动作如何改变不同世界状态的系统,从而避免大量手动编码的需求。

2024-07-13 16:32:31 426

原创 LLM See, LLM Do

研究背景:合成数据的广泛使用引发了关于数据生成模型如何通过蒸馏数据影响其他大型语言模型的新问题。研究内容:本文系统研究了合成数据整合对模型内部偏见、校准和生成文本属性及偏好的影响。主要发现:模型对某些属性异常敏感,即使合成数据提示看起来“中性”。研究问题:是否可以利用数据生成过程明确引导模型在测试时具备我们想要的属性。提出概念:提出了“主动继承”(active inheritance),即有意识地根据非微分目标约束合成数据。

2024-07-09 16:33:26 673

原创 Datawhale Al夏令营-基于星火大模型的群聊对话分角色要素提取挑战赛(1) baseline解读

主程序部分首先读取训练和测试数据,然后遍历测试数据并调用大模型获取提取的信息,检查和补全JSON格式,最终将结果写入输出文件中。定义星火认知大模型的URL、App ID、APIKey和APISecret。定义一个函数和异常类,用于检查和补全JSON格式,确保所有必要字段都存在且类型正确。定义一个函数,用于向星火认知大模型发送消息并获取回复。定义一个函数,用于从大模型输出的字符串中提取json。#ai夏令营#datawhale#夏令营#ai。用于与星火认知大模型进行交互,定义一个用于提取信息的提示模板。

2024-07-02 15:24:09 322

原创 幻觉侦探:小模型有大智慧

背景:大型语言模型(LLMs)在生成文本时可能会出现幻觉(hallucinations),即看似合理但实际上没有事实支持的内容。这对于LLMs在现实世界的应用构成了挑战。现有方法:现有研究依赖于强大的闭源LLMs(如GPT-4)进行幻觉检测。HaluAgent:本文提出的HaluAgent框架允许相对较小的LLMs(例如Baichuan2-Chat 7B)主动选择适当的工具来检测多种类型的幻觉,如文本、代码和数学表达式。方法。

2024-07-01 13:37:59 1054

原创 UNIGEN框架下的文本数据集创造术

背景: 大型语言模型(如 GPT-4 和 Llama3)通过生成高质量合成数据,减少了对昂贵人工生成数据集的依赖,对各个领域产生了显著影响。挑战: 现有生成框架在泛化性、可控性、多样性和真实性方面存在挑战。泛化性 (Generalization): 指数据生成模型能够产生广泛适用于多种任务和场景的数据。具有高泛化性的数据集可以帮助模型学习到更广泛和通用的特征,从而在不同的应用中表现更好,减少对特定数据分布的依赖。可控性 (Controllability)

2024-06-30 08:47:59 1257

原创 长上下文模型在知识长卷中的阅读之旅

LCLMs 潜力:长上下文语言模型有潜力通过原生处理整个信息语料库来革新我们处理任务的方式。优势:使用 LCLMs 可以提高用户友好性,减少对专业工具知识的需要,提供健壮的端到端建模,减少复杂流程中的级联错误,并允许在整个系统中应用高级提示技术。LOFT 基准:引入了 LOFT(Long-Context Frontiers),一个针对需要长达数百万token上下文的现实世界任务的基准,用于评估 LCLMs 在上下文检索和推理方面的性能。研究发现。

2024-06-29 22:33:39 559

原创 Gist:探索语言模型的高效提示压缩之道

问题陈述:语言模型(LMs)的多任务能力主要通过提示(prompting)来实现,但提示占用了宝贵的输入上下文窗口空间,且重复编码相同的提示在计算上是低效的。现有方法:微调(finetuning)和蒸馏(distillation)方法可以在不使用提示的情况下专门化语言模型,但需要针对每个任务重新训练模型。提出的解决方案:本文提出了“gisting”方法,通过训练语言模型将提示压缩成更小的“gist”令牌集合,这些令牌可以被缓存和重用,以提高计算效率。方法。

2024-06-28 09:29:26 602

原创 主动式语言代理在现实世界规划中的前瞻性策略

背景:大型语言模型(LLMs)的发展增强了语言代理在多样化现实世界场景中的规划能力。问题:尽管有进步,但LLMs在理解模糊用户指令进行推理和决策的能力仍有待探索。新任务:提出了一种名为“Proactive Agent Planning”的新任务,要求语言代理基于用户-代理对话和代理-环境交互预测需要澄清的需求,调用外部工具收集有效信息,并生成计划以满足用户需求。新基准数据集:建立了一个新的基准数据集“Ask-before-Plan”。新框架。

2024-06-25 18:58:50 699

原创 调谐知识检索的和声:通过检索器集成框架优化大型语言模型的一致性

论文:《Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models》详细探讨了检索增强型大型语言模型(RALMs)中的检索器(Retriever)不一致性问题,并提出了一种解决方案。

2024-06-24 14:48:00 596

原创 鸡尾酒效应:LLM时代的信息检索新基准

人大高瓴联合华为诺亚和中科院计算所提出了一个全新的信息检索(IR)基准测试——Cocktail,它特别针对大型语言模型(LLM)生成的内容(AIGC)对IR系统的影响进行了评估。

2024-06-24 10:57:57 535

原创 NV-Embed重塑文本嵌入艺术

目的:提高大型语言模型(LLM)在文本嵌入任务上的性能。方法:提出了NV-Embed模型,包含新架构和训练过程。结果:使用潜在注意力层和两阶段对比指令调整方法,在多个基准测试上取得优异成绩。开源:模型将在Hugging Face上开源。

2024-06-23 11:17:27 909

原创 多智能体协作中的小世界现象与协作扩展法则

清华和北邮的研究人员提出了一种新型的多智能体协作网络(MACNET),通过使用有向无环图(DAG)来组织智能体之间的互动和推理过程。实验结果表明,MACNET在不同的网络拓扑结构下都能有效地提高智能体之间的协作能力,并且发现了“小世界”协作现象,即具有小世界特性的拓扑结构能够带来更优越的性能。研究者发现,在这些结构中,具有小世界特性的网络拓扑展现出了更高效的协作性能。🚀协作扩展法则的发现: 论文中一个重要的发现是协作扩展法则,它描述了随着智能体数量的增加,解决方案的质量如何遵循对数增长模式。

2024-06-22 10:37:42 334

原创 RichRAG框架如何为复杂查询编织丰富回答

问题陈述:传统的检索增强生成(RAG)模型主要关注具有清晰用户意图和简洁答案的问题场景。然而,用户经常提出宽泛、开放式的查询,这些查询具有多样化的子意图,需要丰富和长形式的答案来覆盖多个相关方面。方法:提出了一个新的RAG框架,名为RichRAG。它包括一个子方面探索器来识别输入问题的潜在子方面,一个多方面检索器来构建与这些子方面相关的多样化外部文档候选池,以及一个生成式列表智能排名模块,用于为最终生成器提供最有价值的文档。结果。

2024-06-21 14:29:11 1100

原创 不只是笑话,是智慧!Chumor数据探索AI幽默

摘要: 论文指出,目前幽默数据集和评估主要集中在英语上,缺乏对非英语语言(如中文)文化细微差别的幽默理解资源。为了填补这一空白,作者构建了Chumor数据集,该数据集来源于中国的“弱智吧”(RZB)。结论: Chumor数据集为非英语幽默研究和提高LLMs对不同文化背景推理能力的研究提供了促进。作者与机构: 来自密歇根大学、卡内基梅隆大学和上海交通大学的研究人员。结果: 人类解释显著优于LLMs生成的解释。

2024-06-21 10:35:09 417

原创 镜中AI:自我知识评估与LLM的自我发现

此外,研究还发现,当模型的注意力机制与人类相似时,它们在自我知识任务上的表现会有所提高,但与人类相比,LLMs的注意力集中度仍然较低。研究团队通过模仿费曼的“如果我不能创造它,我就不理解它”的原则,设计了一系列测试,让模型在生成问题后再次回答这些问题,以此检验模型是否真正理解了它们所创造的内容。总结来说,这篇论文通过自我知识评估框架,为理解和提升LLMs和LMMs的能力提供了新的视角和方法,揭示了模型在自我理解方面的不足,并为未来的模型优化和评估提供了有价值的见解。

2024-06-20 14:13:26 313

原创 填补信息检索的“空洞“:LLM的评估角色

数据污染测试:为了确保LLM评估器的结果不是由于数据泄露造成的,作者使用了TREC DL 2023的数据集进行了测试,结果表明LLM能够独立于数据泄露正确地评估相关性。模拟实验设计:为了测试LLM评估器的效果,作者通过随机删除TREC DL数据集中的相关性判断来创建不同程度的"空洞",然后让LLM评估器尝试填补这些空洞。问题背景:随着数据集规模的增长,传统的IR评估方法难以保持所有文档的相关性判断完整,导致评估结果可能存在偏差。零样本提示:不使用任何先前评定的示例,直接让LLM评估未评定的文档。

2024-06-19 17:46:34 326

原创 一叶知秋:单令牌模态融合革新RAG上下文压缩

xRAG通过重新解释在密集检索中使用的文档嵌入,将它们作为检索模态的特征,并运用模态融合方法将这些嵌入无缝集成到语言模型的表示空间中。在xRAG中,唯一可训练的组件是模态桥接器,而检索器和语言模型保持不变。实验结果表明,xRAG在六个知识密集型任务上平均提高了超过10%的性能,适用于从密集的7B模型到8x7B专家混合配置的各种语言模型。xRAG不仅显著优于以前的上下文压缩方法,而且在几个数据集上与未压缩模型的性能相匹配,同时将整体浮点运算次数减少了3.53倍。

2024-06-19 17:38:07 545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除