科研论文
文章平均质量分 71
论文阅读 or 代码复现
辰阳星宇
这个作者很懒,什么都没留下…
展开
-
【检索增强】Retrieval-Augmented Generation for Large Language Models:A Survey
LLM检索增强的新范式原创 2024-03-29 10:53:31 · 1366 阅读 · 0 评论 -
【LLM长文处理】Compressing Context to Enhance Inference Efficiency of Large Language Models
管理长文和扩展对话:内存和推理事件的计算需求增加:选择性上下文方法:识别和修剪输入上下文中的冗余,使输入更加紧凑,提升推理效率。:需要长上下文处理的常见数据源:arXiv论文、新闻论文、长对话、摘要总结、问答、响应生成:显著降低内存成本和生成延迟,同时保持相当的性能。:上下文成本降低50%、内存使用降低36%,推理时间降低32%,仅在四个下游应用有0.023和0.038的轻微性能下降。原创 2024-01-29 16:15:20 · 996 阅读 · 0 评论 -
【LLM长文处理】WALKING DOWN THE MEMORY MAZE: BEYOND CONTEXT LIMIT THROUGH INTERACTIVE READING
长文本理解:上下文窗口长度有限:外推位置嵌入、递归、检索来扩展上下文窗口:仍然不能有效处理长文理解:MemWalker:将LLM视为一个交互代理,允许它通过迭代提示来决定如何阅读文本。将长上下文处理成一个摘要节点树。接受到查询后,会在树中导航搜索,收集到足够信息就进行响应。:(摘要中未提及,下面是文章中提及的)使用来自scroll基准数据集:QuALITY、SummScreenFD、GovReport:优于使用长上下文窗口、递归、检索的基线方法,并提高了可解释性。原创 2024-01-17 11:07:39 · 485 阅读 · 0 评论 -
【LLM的概念理解能力】Concept Understanding In Large Language Models: An Empirical Study
在过去几年里,大语言模型已经成为了学术研究的前沿。最近发布的ChatGPT进一步展示了大语言模型在各种先进技术和工程规划的下游任务中的潜力(Brown et al., 2020)。另一方面,大语言模型理解的能力也会受到其在现实场景中的部署,这使得这一研究问题的探索成为一个新的课题。本文主要从抽象概念和具体概念的角度来研究大语言模型的理解能力。这种探索的灵感来自于现实世界中不同的任务通常需要不同抽象级别的理解能力。在与物理实体相关的任务中,例如对动物的类型进行分类,可能需要更好地具体概念。原创 2024-01-10 16:59:15 · 1087 阅读 · 0 评论 -
【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
探索大语言模型解决推理问题的能力。从头训练或微调模型,需要创建大量的高质量含中间步骤的数据集,成本过大。原创 2023-12-19 10:28:28 · 1081 阅读 · 0 评论 -
【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC
(1)增强机器阅读理解能力的鲁棒性(2)设计prompt和合适的参数,增强机器阅读理解能力(一次回答多个问题)原创 2023-12-06 16:26:24 · 388 阅读 · 0 评论 -
【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记
预训练语言模型(PLMs)是在大型文本语料库上通过自我监督学习方法进行训练的一种语言模型,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,虽然具有巨大参数的plm能够有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但也存在一定的局限性,原创 2023-11-15 17:35:13 · 636 阅读 · 0 评论