大模型专栏
文章平均质量分 91
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
Coggle数据科学 | 大模型技术内参:39 种提示工程 在 29 种 NLP 任务精度对比
大语言模型(LLMs)在许多不同的自然语言处理(NLP)任务中表现出色。提示工程需要编写称为提示的自然语言指令,以结构化方式从LLMs中提取知识。与以往的最新技术(SoTA)模型不同,提示工程不需要根据给定的NLP任务进行广泛的参数重新训练或微调,因此仅依赖于LLMs的嵌入知识。原创 2024-07-27 20:49:39 · 249 阅读 · 0 评论 -
AI算法与图像处理 | 吴恩达团队新作!多模态方向
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。原创 2024-07-26 21:16:07 · 454 阅读 · 0 评论 -
Coggle数据科学 | 国产大模型速度评测(谁是更快大模型?)
2024年无疑会被载入史册,各大科技厂商纷纷争先恐后地推出了自家的大模型产品。6月25日OpenAI暂停在我国大陆地区服务,国产大模型表现更加值得期待。本文将对比较流行的国产大模型进行速度评测,通过不同类型的问题来对比模型的回答速度。统计的标准为数除以耗时。原创 2024-07-15 19:51:22 · 800 阅读 · 0 评论 -
Coggle数据科学 | 小白学RAG:架构、策略和应用
大型语言模型(LLMs)在语言理解和生成方面展示了革命性的能力,但它们仍然面临着一些固有的局限性,比如幻觉和过时的内部知识。鉴于RAG在提供最新和有帮助的辅助信息方面的强大能力,检索增强型大型语言模型(Retrieval-Augmented Large Language Models, RA-LLMs)应运而生。RA-LLMs利用外部权威知识库,而不仅仅依赖模型的内部知识,来提高LLMs的生成质量。原创 2024-07-13 22:13:45 · 950 阅读 · 0 评论 -
机器学习算法与Python实战 | AI Agent入门:Agent角色指令设计
Agent的核心思想是使用语言模型(LLM)作为推理的大脑,以制定解决问题的计划、借助工具实施动作。知识问答-知识库检索:大模型将基于您上传的知识文档回答问题,可选择直接上传文件,或选择已有知识集合。知识集合相关内容可查看文档我的知识。使用场景+工具:描述您的应用背景,并给出相应背景下使用的工具,让大模型可以在更为精确的场景下用匹配的工具行动。子目标拆解解:agent将大型任务拆解为小型的、可管理的子目标,从而能够高效处理复杂任务。角色设定:设定您想让Agent扮演的角色,可以给出一些您期望它具备的能力。原创 2024-07-12 18:32:54 · 800 阅读 · 0 评论 -
江大白 | 近一年,多模态视觉&语言大模型架构演进汇总梳理
近些年各种大模型层出不穷,本文对多模态LLM (视觉-语言模型) 近一年来的模型架构演进进行了详细回顾,对其中有代表性的工作进行了精炼总结,希望对大家有所帮助。原创 2024-07-12 18:23:20 · 1208 阅读 · 0 评论 -
AI生成未来 | 大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)
本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器-解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs历史和模型做了完整的梳理,也突出了它们在自然语言处理技术发展中的关键角色。原创 2024-07-08 17:56:40 · 1132 阅读 · 0 评论 -
CVHub | 万字长文带你全面解读视觉大模型(建议收藏!)
近年来,基础模型取得了显著的成功,特别是通过大型语言模型LLMs,主要归因于数据和模型规模的大幅扩展。例如,像GPT-3这样的十亿参数模型已成功用于零/少样本学习,而无需大量的任务特定数据或模型参数更新。与此同时,有5400亿参数的Pathways Language Model(PaLM)在许多领域展现了先进的能力,包括语言理解、生成、推理和与代码相关的任务。反观视觉领域,诸如CLIP这样的预训练视觉语言模型在不同的下游视觉任务上展现了强大的零样本泛化性能。这些模型通常使用从网络收集的数百上千万。原创 2024-03-08 16:04:42 · 1692 阅读 · 0 评论 -
kaggle竞赛宝典 | 时间序列和时空数据大模型综述!(建议收藏!)
大型语言模型(LLM)和预训练基础模型(PFM)在自然语言处理(NLP)、计算机视觉(CV)等领域有广泛应用。时间序列和时空数据本质上都是时间数据,将这两个广泛且内在联系的数据类别的研究结合起来至关重要。尽管深度学习和自监督预训练方法在时间序列和时空数据分析领域逐渐取得进展,但统计模型仍占主导地位。原创 2024-03-21 15:49:28 · 1592 阅读 · 0 评论 -
kaggle竞赛宝典 | 最新时间序列统一大模型,秒杀各类时序任务!
今天给大家介绍一下哈佛和MIT最近联合发表的最新时间序列大模型工作,构建了一个统一的时间序列模型,能够处理各类时间序列任务,在38种不同的时间序列任务中,有27个都取得了最优效果。原创 2024-03-30 20:48:06 · 1586 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:大模型输出概率 logprobs
在ChatGPT API中启用logprobs参数时,API 会返回每个输出标记的对数概率,以及每个标记位置上最可能的几个标记及其对数概率的有限数量。logprobs:是否返回输出标记的对数概率。如果设置为 true,则返回消息内容中每个输出标记的对数概率。目前在模型中不可用。:一个介于 0 和 5 之间的整数,指定要在每个标记位置返回的最可能标记的数量,每个标记都有一个关联的对数概率。如果使用了此参数,logprobs必须设置为 true。原创 2024-05-01 10:49:18 · 576 阅读 · 0 评论 -
kaggle竞赛宝典 | 10大顶级开源大模型!
IT行业的历史告诉我们,开源是软件领域里的一大潮流,它推动了应用生态的繁荣。但自从GPT3出现后,Open AI却选择了闭源,这使得开源大模型的发展似乎停滞在了GPT3.5的阶段。不过,业界还是有一些不错的前沿开源大模型,比如Meta的LLaMA3、Mistral 8x7B和零一万物的Yi-34B等。原创 2024-05-26 11:15:19 · 1211 阅读 · 0 评论 -
新智元 | 「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
用大模型来辅助强化学习,可以提高模型在多任务学习、样本利用率、任务规划等复杂任务下的能力,该论文综述了LLM-enhanced RL领域的最新进展,总结了LLM-enhanced RL的主要技术框架、特性以及四种主要技术路线;并分析了未来该方向的机会与挑战。原创 2024-04-27 21:31:45 · 1027 阅读 · 0 评论 -
计算机视觉研究院 | 为什么都放弃了LangChain?
或许从诞生那天起,LangChain 就注定是一个口碑两极分化的产品。看好 LangChain 的人欣赏它丰富的工具和组建和易于集成等特点,不看好 LangChain 的人,认为它注定失败 —— 在这个技术变化如此之快的年代,用 LangChain 来构建一切根本行不通。夸张点的还有:「在我的咨询工作中,我花了 70% 的精力来说服人们不要使用 langchain 或 llamaindex。这解决了他们 90% 的问题。原创 2024-07-05 17:59:20 · 993 阅读 · 0 评论 -
极市平台 | 月之暗面kimi底层推理系统方案揭秘
现代大型语言模型(LLMs)基于Transformer架构,该架构利用注意力机制和多层感知器(MLP)来处理输入。基于流行的Transformer模型,例如GPT [10] 和 LLaMA [11],采用的是仅解码器结构。每个推理请求在逻辑上被划分为两个阶段:预填充阶段和解码阶段。在预填充阶段,所有输入token并行处理。此阶段生成第一个输出token,同时存储计算出的中间结果,这些中间结果被称为KVCache。原创 2024-07-05 17:57:44 · 775 阅读 · 0 评论 -
深度学习与NLP | 全面回顾最先进:AI大模型+RAG的综述!
在RAG中利用LLMs生成的文本时,模型将问题分为已知或未知,选择性地应用检索增强,或将LLM生成器用于取代检索器,通过迭代创建与检索增强生成器无界的内存池,使用内存选择器来选择作为原始问题的双重问题的输出,从而自我增强生成模型。块优化需要考虑索引内容的性质、嵌入模型、用户查询的预期长度和复杂性以及应用程序的使用情况,而微调嵌入模型需要使用专门领域的数据集,以提高模型准确捕捉特定领域信息的能力。最近的研究引入了多样化的方法,如摘要嵌入技术、元数据筛选技术和图索引技术等,以提高检索结果和RAG的性能。原创 2024-07-01 17:56:06 · 1071 阅读 · 0 评论