LLM-推理
文章平均质量分 91
LLM-推理
nopSled
一周一更
展开
-
Efficient Tool Use with Chain-of-Abstraction Reasoning翻译
推理,这是一种鲁棒且高效的方法,可供LLM使用工具执行多步骤推理。如图 1 所示,LLM 进行了微调,目标是使用抽象占位符构建推理链。占位符不会影响LLM的推理流程,随后会填充从专业工具中检索到的特定知识,为最终答案的生成奠定基础。翻译 2024-03-31 04:15:41 · 129 阅读 · 0 评论 -
KnowGPT: Black-Box Knowledge Injection for Large Language Models翻译
生成式大语言模型 (LLM) 以其卓越的性能令世界惊叹不已,特别是随着 ChatGPT 和 GPT4 的出现。尽管如此,LLM经常因其有限的事实知识和产生幻觉的倾向而受到批评,其中模型对超出其知识和感知范围的任务做出了错误的陈述。考虑 OpenbookQA 提出的一个生态领域特定问题,如图 1 所示。当询问营养素的比例时,ChatGPT 错误地提供了“能量”响应。这种不准确可能源于其对碳水化合物及其与营养物质关系的潜在缺乏了解。翻译 2024-01-15 03:29:45 · 166 阅读 · 0 评论 -
Cumulative Reasoning With Large Language Models翻译
尽管大型语言模型(LLM)在各种应用中取得了显着的进步,但在面对高度复杂的任务时,它们仍然难以提供稳定和准确的答案。例如,据观察,语言模型很难直接生成高中数学问题的正确答案。考虑到LLM所采用的训练方法,这种不足是可以预见的。具体来说,他们被训练为根据给定的上下文顺序预测下一个token,而不会暂停进行思考。正如 Kahneman (2011) 所阐明的,我们的认知处理过程由两个不同的系统组成:System 1是快速的、本能的和情感的;系统2是缓慢的、深思熟虑的、合乎逻辑的。翻译 2023-09-29 19:47:04 · 323 阅读 · 0 评论 -
SpecInfer: Accelerating Generative LLM Serving翻译
生成式大语言模型(LLM),例如ChatGPT和GPT-4,已经证明了在各种应用领域中创建自然语言文本的显着能力,这些领域包括摘要,指令遵循和问答。但是,由于它们包含大量参数,以及复杂的网络结构和高计算要求,因此快速,地服部署这些LLM是一个挑战。例如,GPT-3结构具有1750亿个参数,需要超过16个NVIDIA 40GB A100 GPU才能存储在单精度的浮点中,并花几秒钟才能提供单个推理请求。如图1a所示,生成式LLM通常将输入作为一个token序列,称为提示,并一次生成后续token。翻译 2023-08-03 16:47:43 · 653 阅读 · 0 评论 -
vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention翻译(文档)
LLMS从根本上改变了我们在所有行业中使用AI的方式。但是,实际上为这些模型提供服务是具有挑战性的,即使在昂贵的硬件上也可能会具有很慢的推理速度。今天,我们很高兴介绍vLLM,这是一个用于快速LLM推理和服务的开源库。vLLM利用了,这是我们能有效地管理注意力key和value的新的注意力算法。配备了PagedAttention的vLLM重新定义了LLM服务中的SOTA:它比HuggingFace Transformers的吞吐量快24倍,而无需任何模型结构的更改。翻译 2023-07-15 15:11:56 · 1213 阅读 · 0 评论