大语言模型
文章平均质量分 85
一只特蕉
一个致力于特立独行的香蕉
展开
-
DB-GPT: Empowering Database Interactions with Private Large Language Models 导读
DB-GPT是一个智能且开放源代码的数据库对话系统,它能够解决各种任务,并在多个基准测试中表现出色。DB-GPT采用了多种技术手段来提高其性能和效率,如知识构造、知识检索、文本到SQL微调等。DB-GPT还具有隐私保护功能,可以在没有互联网连接的情况下运行,并通过代理去识别化技术保护用户数据的安全。原创 2024-05-07 19:21:42 · 383 阅读 · 0 评论 -
DB-GPT: Empowering Database Interactions with Private Large Language Models 导读
DB-GPT是一个智能且开放源代码的数据库对话系统,它能够解决各种任务,并在多个基准测试中表现出色。DB-GPT采用了多种技术手段来提高其性能和效率,如知识构造、知识检索、文本到SQL微调等。DB-GPT还具有隐私保护功能,可以在没有互联网连接的情况下运行,并通过代理去识别化技术保护用户数据的安全。原创 2024-01-29 15:40:28 · 1336 阅读 · 0 评论 -
The Rise and Potential of Large Language Model Based Agents: A Survey 中文翻译
长期以来,人类一直追求与或超越人类水平的人工智能(AI),而人工智能代理被视为实现这一目标的有希望的方式。人工智能代理是感知环境、做出决策并采取行动的人工实体。已经有很多关于开发智能代理的努力,但它们主要集中在算法或训练策略方面的改进,以提高特定任务的能力或性能。实际上,社区缺乏一个通用且强大的模型,可以作为设计适应各种情况的人工智能代理的起点。由于它们所展示的各种能力,大型语言模型(LLMs)被认为是人工通用智能(AGI)的潜在火花来源,并为构建通用人工智能代理提供了希望。原创 2024-01-29 11:02:50 · 1486 阅读 · 0 评论 -
The Rise and Potential of Large Language Model Based Agents: A Survey 导读
论文系统地介绍了基于预训练模型的语言模型(LLM)在智能体研究中的应用,并探讨了其与传统决策框架的结合。提出了将LLM应用于智能体的研究中可以提高任务效率、增强协作能力等优势,并指出了存在的挑战和风险。在评价方面,提出了评估LLM代理人的四个维度:效用、社会性、价值观和持续进化能力,并讨论了如何量化这些特征以及如何解决相关问题的方法。原创 2024-01-26 16:27:09 · 1241 阅读 · 0 评论 -
大语言模型-幻觉
1、Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Modelshttps://arxiv.corg/pdf/2309.01219.pdfAI海洋中的女妖之歌2、Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedbackhttps://arxiv.o原创 2024-01-26 15:48:25 · 688 阅读 · 0 评论 -
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automate
本文提出了一种名为LLM-AUGMENTER的方法,通过使用外部知识和自动化反馈来增强大型语言模型(如ChatGPT)的能力。该方法利用外部知识作为LLM提示的一部分,帮助生成更接地的知识相关的响应,并使用自动化反馈激发模型(如ChatGPT和Instruct-GPT)的“后续纠正”能力以产生排名更高的修订响应。实验结果表明,LLM-AUGMENTER在信息检索对话任务和开放领域维基问答任务中显著减少了ChatGPT的幻觉,并提高了其生成响应的流畅性和信息量。原创 2024-01-26 15:47:01 · 702 阅读 · 0 评论 -
Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models AI海洋中的女妖之歌导读
本文综述了大型语言模型(LLM)中的幻觉问题,并介绍了当前解决该问题的方法和挑战。文章首先介绍了LLM的基本原理和应用场景,然后详细阐述了幻觉问题的定义、影响以及相关研究背景。接着,作者列举了幻觉问题的来源并探讨了解决方案,包括数据清理、模型调整和评估等方法。最后,文章提出了未来的研究方向和发展趋势。本文的优点在于系统地总结了LLM中幻觉问题的研究现状,全面梳理了相关的研究成果和技术手段。同时,文章也深入剖析了幻觉问题的本质和根源,为后续的研究提供了重要的参考和启示。原创 2024-01-26 15:29:52 · 603 阅读 · 0 评论 -
Meta-Transformer: A Unifeid Framework for Multimodal Learning 导读
提出了Meta-Transformer框架,能够同时处理12种不同的数据模态,并使用同一组参数来提取表示。实验结果表明,在各种多模态学习任务中,Meta-Transformer表现出了优异的性能,并且比现有方法具有更好的泛化能力。论文提出了一个统一的映射函数F,将来自任何模态的数据x映射到预测值ˆy,并探讨了如何在不同模态之间共享参数以提高模型效率的问题。原创 2024-01-26 15:14:39 · 376 阅读 · 0 评论 -
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models 导读
本文提出了一个名为MiniGPT-4的新型视觉语言模型,该模型利用了先进的大型语言模型LLM Vicuna,并结合BLIP-2的视觉感知能力,实现了与GPT-4类似的多种高级视觉语言能力。通过在图像描述数据集上预训练Vicuna并对其进行微调,作者成功地使MiniGPT-4能够生成详细的图像描述、构建网站、解释视觉现象等任务。原创 2024-01-26 14:31:10 · 344 阅读 · 0 评论 -
大语言模型-任务规划与分解论文
1、Chain-of-Thought Prompting Elicits Reasoning in Large Language Models https://arxiv.org/abs/2201.11903Chain-of-Thought Prompting Elicits Reasoning in Large Language Models2、Tree of Thoughts: Deliberate Problem Solving with Large Language Models https://a原创 2024-01-26 14:06:30 · 1084 阅读 · 0 评论 -
ART: Automatic multi-step reasoning and tool-use for large language models 导读
本文提出了一种名为ART的框架,可以自动地为大型黑盒语言模型生成多步推理过程,并使用工具库中的外部工具来提高性能。该框架通过检索任务库中与新任务相关的演示文稿,从而实现零样本分解和工具使用。ART提供了一个灵活但结构化的查询语言,使得解析中间步骤、停止生成以调用外部工具以及在包括这些工具输出后继续生成变得容易。此外,用户可以通过更新任务和工具库来修复任何错误或添加新工具,而无需重新训练模型。实验结果表明,ART在多个测试任务上表现优异,特别是在需要算术和算法推理的任务上表现出色。原创 2024-01-26 13:56:53 · 1402 阅读 · 0 评论 -
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读
论文提出了一种简单而广泛适用的方法——链式思维提示(chain-of-thought prompting),用于增强大型语言模型的推理能力。通过实验证明,链式思维提示能够显著提高大型语言模型在算术、常识和符号推理等任务上的表现,并且比传统的提示方法具有更强的泛化能力和更小的数据需求。研究结果表明,链式思维提示是一种有效的工具,可以扩展大型语言模型的能力范围,进一步激发了使用自然语言处理技术解决复杂问题的研究方向。原创 2024-01-26 11:40:54 · 1477 阅读 · 0 评论 -
大语言模型-大模型基础文献
1、Attention Is All You Need https://arxiv.org/abs/1706.03762attention is all you need2、Sequence to Sequence Learning with Neural Networks https://arxiv.org/abs/1409.3215基于深度神经网络(DNN)的序列到序列学习方法3、Neural Machine Translation by Jointly Learning to Align and Tr原创 2024-01-26 11:36:45 · 1213 阅读 · 0 评论 -
equence to Sequence Learning with Neural Networks 导读
该研究使用了深度学习中的LSTM模型来解决序列到序列的问题,并在WMT’14英法翻译任务中取得了优异的表现。与传统的SMT系统相比,LSTM模型具有更好的性能表现,尤其是在小词汇量的情况下。研究者还通过反转源句子中的单词顺序来改进模型性能,这是一个简单而有效的技巧。原创 2024-01-26 11:32:07 · 902 阅读 · 0 评论 -
attention is all you need 导读
本文提出了一种新的序列转换模型——Transformer,该模型完全基于注意力机制,取代了在编码器解码器架构中常用的递归层。与使用递归或卷积层的架构相比,对于翻译任务,Transformer可以训练得更快,并且在WMT 2014英语到德语和WMT 2014英语到法语翻译任务上取得了新的最佳表现。此外,作者还计划将注意力机制应用于其他任务,并将其扩展到涉及输入和输出模态的问题,例如图像、音频和视频等。原创 2024-01-26 11:31:05 · 960 阅读 · 0 评论 -
Emergent Abilities of Large Language Models 机翻mark
证明通过扩大语言模型可以可靠地提高性能和样本效率在广泛的下游任务。相反,本文讨论了我们称之为大型语言模型的新兴能力的一种不可预测的现象。我们认为如果一个能力不存在于较小的模型中,但在较大的模型中存在,则该能力就是新兴的。因此,仅仅通过外推小模型的性能无法预测新兴的能力。这种涌现的存在提出了一个问题:是否有可能进一步扩展语言模型的能力范围。近年来,语言模型已经彻底改变了自然语言处理(NLP)。原创 2024-01-26 11:28:31 · 1350 阅读 · 0 评论