大模型专栏
文章平均质量分 92
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
Coggle数据科学 | RAG编码模型对比:谁与OpenAI最为相似?
在设计检索增强型生成(RAG)系统时,选择嵌入模型是一个关键步骤。鉴于可选模型很多,识别相似模型可以帮助进行模型选择。原创 2024-11-13 17:19:25 · 327 阅读 · 0 评论 -
集智书童 | 无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
随着大型语言模型(LLMs)在各种任务和专业化领域中的出色表现,基于现有模型的LLM扩展引起了广泛关注,但当将不同模型结合时,性能可能会降低。为了汇总预训练的LLM,已提出了各种技术,包括模型合并、混合专家和堆叠。尽管它们具有优点,但尚未对它们进行全面比较和综合应用到多样化的模型动物园中。鉴于这一研究空白,本文引入了Model-GLUE,这是一个全面的LLM扩展指南。首先,作者的工作从现有的LLM扩展技术基准开始,特别是选择性合并和混合的变体。利用基准结果的洞察,作者制定了一个策略,用于原创 2024-11-10 17:40:50 · 782 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:斯坦福CS25 Transformers与LLMs(图文并茂!)
CS25: Transformers United V4 是斯坦福大学(Stanford University)在2024年春季开设的一门课程,从4月4日持续到5月30日。这门课程专注于深度学习领域中的Transformers和大模型。原创 2024-11-06 17:53:27 · 757 阅读 · 0 评论 -
WeThinkIn | 谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍(已收藏)!
在当今科技界,关于人工智能是否被过度炒作的争论从未停息。然而,很少有像谷歌 DeepMind 的安全研究专家和机器学习科学家 Nicholas Carlini 这样的专家,用亲身经历为我们提供了一个独特的视角。通过他的文章,我们看到了大型语言模型(LLM)在实际应用中的强大能力和多样性。这些并非空洞的营销宣传,而是切实可以改变工作方式、提高生产效率、激发创意的工具。原创 2024-11-05 17:53:10 · 839 阅读 · 0 评论 -
一个数据人的自留地 | 用ChatGPT做数据分析与挖掘,爽!
在现代数据分析中,Python凭借其强大的数据处理能力和丰富的库资源成为首选工具。ChatGPT,作为先进的自然语言处理模型,正逐步成为Python数据分析与挖掘的强大辅助工具。通过ChatGPT的自然语言处理能力,用户可以轻松生成代码、解释数据模型和优化算法,极大地提升了数据分析的效率和准确性。无论是数据清洗、特征工程还是建模预测,ChatGPT都能提供智能建议,助力数据分析人员更快地实现数据洞察和商业价值。原创 2024-11-03 17:32:43 · 1038 阅读 · 0 评论 -
kaggle竞赛宝典 | LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
LLM-Mixer通过结合多尺度时间序列分解和预训练的LLMs,提高了时间序列预测的准确性。它利用多个时间分辨率有效地捕捉短期和长期模式,增强了模型的预测能力。实验表明,LLM-Mixer在各种数据集上实现了具有竞争力的性能,优于最新的最先进方法。原创 2024-11-03 17:30:28 · 636 阅读 · 0 评论 -
极市平台 | 垂直领域大模型的思考,推荐学习!
本文将系统介绍如何做一个垂直领域的大模型,包括继续预训练,领域微调数据构建,减缓幻觉,知识召回多个方面。也会介绍整体的系统设计,并串讲一系列相关的论文和产品。原创 2024-10-28 17:39:19 · 1090 阅读 · 0 评论 -
OpenMMLab | S4模型详解:应对长序列建模的有效方法
序列建模的一个核心问题在于长距离依赖关系 (long-range dependencies, LRD)。一个有潜力的方法是模拟状态空间模型 (state space model, SSM),它从理论和实践上被验证,当选取一些特殊参数时(参考 HiPPO),可以处理 LRD,然而有着极高的计算与内存要求。这篇论文基于 SSM 的新参数化提出 Structured State Space sequence model (S4),并证明了它可以在保留理论优势的同时大幅降低时间、空间复杂度。原创 2024-10-22 17:20:13 · 427 阅读 · 0 评论 -
集智书童 | 上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究 !
许多以前的 AI 研究侧重于开发单模型以最大化其智能和能力,主要目标是提高特定任务上的性能。相比之下,本文探索了另一种方法:使用工作流来整合模型、数据来源和 Pipeline 以解决复杂和多样化的任务。作者引入了 GenAgent,这是一种基于 LLM 的框架,可自动生成复杂的工作流,与单模型相比具有更大的灵活性和可扩展性。原创 2024-10-19 17:36:52 · 729 阅读 · 0 评论 -
菜鸟学Python | OpenAI canvas一夜封神!超强AI编码研究神器,ChatGPT再次颠覆人机交互!
ChatGPT横空出世以来,首次迎来界面史诗级升级!全新canvas界面,开启了人类与AI协作研究、编码的新时代,更代表着终极AGI人机交互形态。时隔两年,ChatGPT终迎来界面全新升级!原创 2024-10-15 09:30:53 · 449 阅读 · 0 评论 -
Coggle数据科学 | Kaggle 知识点:知识蒸馏的三种方法
本文介绍了知识蒸馏(Knowledge Distillation)技术,这是一种将大型、计算成本高昂的模型的知识转移到小型模型上的方法,从而在不损失有效性的情况下实现在计算能力较低的硬件上部署,使得评估过程更快、更高效。原创 2024-09-30 09:25:00 · 934 阅读 · 0 评论 -
算法进阶 | 深度解析Transformer、RNN和Mamba的联系!
本文深入探讨了Transformer、循环神经网络(RNN)和状态空间模型(SSM)之间的潜在联系。文章首通过这些分析,展示了看似不同的模型架构之间存在深层联系,为未来模型设计和跨架构思想交流提供了新的视角和可能性。原创 2024-09-26 15:04:23 · 1099 阅读 · 0 评论 -
机器学习算法与Python实战 | 三万字详解!GPT-5:你需要知道的一切(引用链接)值得学习!
这篇超长的文章(部分是评论,部分是探索)是关于 GPT-5 的。我们分为上和下两部分。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能(如推理和代理)。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。原创 2024-09-26 09:43:23 · 1102 阅读 · 0 评论 -
机器学习算法与Python实战 | 三万字详解!GPT-5:你需要知道的一切(下)建议收藏!
这篇超长的文章(部分是评论,部分是探索)是关于 GPT-5 的。我们分为上和下两部分。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能(如推理和代理)。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。原创 2024-09-25 21:55:09 · 1312 阅读 · 0 评论 -
机器学习算法与Python实战 | 三万字详解!GPT-5:你需要知道的一切(上)建议收藏!
这篇超长的文章(部分是评论,部分是探索)是关于 GPT-5 的。我们分为上和下两部分。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能(如推理和代理)。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。原创 2024-09-25 21:49:40 · 1094 阅读 · 0 评论 -
机器之心 | 阿里云Qwen2.5发布!再登开源大模型王座,Qwen-Max性能逼近GPT-4o
2023 年 8 月,通义首次开源后迅速引起全球开发者的关注和热议,短短一年时间内,阿里云大模型又迎来了重要升级。在 9 月 19 日的云栖大会上,CTO 周靖人宣布:通义千问发布新一代开源模型 Qwen2.5,开源旗舰模型 Qwen2.5-72B 性能超越 Llama 3.1-405B,再次登上全球开源大模型的王座;通义旗舰模型 Qwen-Max 全方位升级,性能已经逼近 GPT-4o。原创 2024-09-21 21:48:20 · 677 阅读 · 0 评论 -
我爱计算机视觉 | ECCV2024 | AddressCLIP:一张图实现街道级定位,端到端图像地理定位大模型
拔草星人的好消息来啦!中科院自动化所和阿里云一起推出了街景定位大模型,只要一张照片就能实现街道级精度的定位。有了模型的帮助,再也不用害怕遇到种草“谜语人”了。比如给模型看一张旧金山的街景之后,它直接给出了具体的拍摄位置,并列举了附近的多个候选地址。原创 2024-09-19 17:46:02 · 977 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战!利用多模态大模型生成绘本
在数字时代,技术与创意的结合不断刷新我们的世界观。今天,我们要探索的是一个充满魔法的领域——AI绘本生成!想象一下,孩子们只需轻声说出想法,AI就能为他们绘制出一本本独一无二的绘本,这不再是梦!原创 2024-09-18 09:21:36 · 1259 阅读 · 0 评论 -
数据分析 | 推荐 :构建大型语言模型应用:一份详细的指南(附链接)
软件工程师可能会更容易过渡到 LLM 工程师的角色,因为与传统的数据科学工作相比,LLM 的实验过程更偏“工程化”,而没有那么强的“科学研究”属性。LLM 原生应用的开发是一个不断迭代的过程,它会涵盖越来越多的用例和功能,也会面临各种各样的挑战,而我们也需要不断探索,力求打造更加完善的 LLM 原生产品。虽然构建“酷炫的演示应用程序”很容易,但从“酷炫的演示”到真正落地且切实可行的解决方案之间,你需要通过大量的实验并且拥有敏捷的反应才可能实现。我的理论是,它减少了不相关的标记,并且表现得更像自然语言。原创 2024-09-04 17:32:47 · 858 阅读 · 0 评论 -
集智书童 | 一文全览 | 知识蒸馏算法汇总(建议收藏!)
知识蒸馏有两大类:一类是「logits蒸馏」,另一类是「特征蒸馏」。「logits蒸馏」指的是在softmax时使用较高的温度系数,提升负标签的信息,然后使用Student和Teacher在高温softmax下logits的KL散度作为loss。原创 2024-09-02 10:08:50 · 702 阅读 · 0 评论 -
算法进阶 | TimeGPT:第一个时间序列的大模型
不确定性是生活的一部分,人们一直在努力预测未来。预测潜在结果的愿望是多学科的基础,反映了人类预测、制定战略和降低风险的倾向。时间序列数据在许多领域中不可或缺,用于识别时间模式、趋势和周期性变化,以预测未来价值和为决策过程提供信息。然而,目前对时间序列的理论和实践理解尚未达成共识,预测科学领域的努力未能实现真正通用的预训练模型。原创 2024-09-01 10:17:07 · 956 阅读 · 0 评论 -
算法进阶 | 必知!大模型背后的6大核心技术!
大家好,今天我们一同来探讨一下那些大模型背后的核心技术!原创 2024-08-31 15:08:10 · 1080 阅读 · 0 评论 -
算法进阶 | 深度学习知识蒸馏的研究综述(建议收藏!)
常用的模型压缩方法有4种:知识蒸馏(Knowledge Distillation,KD)、 轻量化模型架构、 剪枝(Pruning)、 量化(Quantization)。知识蒸馏是一种在深度学习中用于模型压缩和知识传递的技术。它通过将大型复杂模型(教师模型)的知识转移给小型简单模型(学生模型),从而优化学生模型的性能。原创 2024-08-29 17:39:27 · 2333 阅读 · 0 评论 -
新智元 | 百万在线,大圣归来!《黑神话:悟空》石破天惊,RTX 4090D飞越花果山
等待四年,《黑神话:悟空》终于上线。激动的心,颤抖的手,全球玩家们都在电脑屏幕前集结,见证这一中国游戏史上里程碑的一刻。打破多项纪录后,中国游戏版图,会被它撼动吗?就在刚刚,《黑神话:悟空》一上线,就创造了中国游戏史上的奇迹!睽违四年,这一刻,苦苦等待们的玩家们沸腾了。《黑神话:悟空》,将是第一款跻身世界一流水平的国产单机游戏,也注定会是中国游戏史上的一座里程碑。还没上线,游戏就已经打破了多项纪录。原创 2024-08-20 13:59:34 · 1307 阅读 · 0 评论 -
新智元 | 微调Flux席卷全网,外国小哥一人组一队漫威英雄!
席卷开源界的AI生图王者诞生了!发布半个月,Flux已经成为替代Midjourney的宠儿。各路开发者们开始用自己的照片微调LoRA,一人拿捏多种风格。Midjourney之后,从未见人们对某个AI生图应用,如此疯狂着迷。Flux的横空出世,意味着AI图像生成迈入了一个全新的阶段。马斯克本人表示,真假已经傻傻分不清。原创 2024-08-19 21:01:31 · 1249 阅读 · 0 评论 -
OpenMMLab | 不是吧?这么好用的开源标注工具,竟然还有人不知道…
在人工智能和机器学习领域,高质量的数据标注是模型训练的关键。正是基于这一需求,我们为您推荐LabelU,一个强大且易用的多模态数据标注工具,涵盖图像、视频、音频等多种类型的数据。LabelU不仅提供了丰富、灵活的标注功能,还支持多种格式的数据导出,可本地部署及二次开发“魔改”,让您的AI项目如虎添翼。原创 2024-08-18 17:26:25 · 824 阅读 · 0 评论 -
GiantPandaCV | 大模型训练:Megatron-Kwai中的内存优化
除了通信优化,对于大模型训练来说,内存优化也是非常重要的问题。在这篇文章里,我们会结合快手发表在今年ATC上的工作(Megatron-Kwai[1]),简单介绍一下内存优化技术。原创 2024-08-15 21:47:45 · 753 阅读 · 0 评论 -
我爱计算机视觉 | ACL 2024 | 剑桥大学团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。目前训练数据、预训练权重、微调代码等均已开源。该模型已在企业级RAG应用成功落地。作者团队将在8月10日-17日参加ACL 2024,欢迎学术交流和商业合作。原创 2024-08-15 21:44:44 · 1206 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:大模型 RAG 汽车应用实践
在当今快速发展的人工智能领域,对话式人工智能(AI)正经历着一场由大模型技术引领的转型。这种转型标志着对话式AI从传统的预设规则模式,逐渐转变为更加智能和灵活的生成模式。大模型对话机器人的优势基于大模型的对话机器人通过先进的自然语言处理能力,实现了客户意图的精准预测和实时画像分析。这种技术的应用使得AI能够代替传统的人工预设规则,提供更智能、更高效的客户服务体验。与传统的对话机器人相比,大模型对话机器人能够实时生成策略,整合垂类知识和外部搜索结果,以及利用通用知识库,从而提供更加丰富和准确的信息。原创 2024-08-14 21:48:10 · 1143 阅读 · 0 评论 -
OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的WAIC科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。相较于上一代,InternLM2.5 全面增强了在复杂场景下的推理能力,支持 1M 超长上下文,能自主进行互联网搜索并从上百个网页中完成信息整合。原创 2024-08-10 22:16:28 · 1188 阅读 · 0 评论 -
集智书童 | 浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
现有的大型视觉-语言模型(LVLM)主要通过将视觉编码器的图像特征与大型语言模型(LLM)对齐,以利用它们卓越的文本生成能力。然而,视觉编码器与语言模型之间的规模差异可能导致LLM在多模态理解中占据主导地位。这种LVLM中的不平衡可能导致产生幻觉的实例。具体来说,LVLM可能在没有视觉输入的情况下生成一致的描述,这表明某些输出仅受上下文文本的影响。原创 2024-08-07 17:39:12 · 1107 阅读 · 0 评论 -
阿里云开发者 | 如何速成RAG+Agent框架大模型应用搭建
目前大模型的原子能力和API、SDK的更新非常的频繁,也越来越完善,通过一次或者两次的动手搭建,可以让我们知道如何利用这些能力,像“积木”一样,结合自己本身业务或者功能的逻辑,搭建一个完整的大模型“城堡”。原创 2024-08-06 17:59:23 · 1111 阅读 · 0 评论 -
深度学习与NLP | 四个角度谈多模态大模型产生幻觉的原因
四个角度谈多模态大模型产生幻觉的原因原创 2024-07-31 17:50:39 · 1102 阅读 · 0 评论 -
Coggle数据科学 | Kaggle赛题总结:AI数学奥赛挑战赛
数学推理能力是人工智能发展的重要里程碑。数学推理是解决许多复杂问题的基础,从工程奇迹到复杂的金融模型。然而,当前人工智能在这一领域的能力还存在一定限制。原创 2024-07-30 17:41:43 · 1255 阅读 · 0 评论 -
DataFunTalk | AI Agent 在 1688 电商平台中的应用
新的研发模式强调运维态的平台化能力,利用开源或面向大规模服务的平台,实现模型的调度和应用配置的简化,减少开发运维投入。通过外部知识召回的方式,引入外部资源,如某书上的用户笔记或知乎上的相关说明,以丰富挑选的知识基础。然而,随着技术的不断发展,未来我们将通过更加直观、高效的方式,利用 Agent 模式,拆解并呈现用户所需的所有信息,从而极大地提升用户的购物体验。B 类用户,如经营轻奢连衣裙的中年妇女品牌商家,在采购时,会面临很多条件性因素的考量,比如寻找一款热销且价格在一定范围内,商家评价又高的商品。原创 2024-07-29 17:47:01 · 1192 阅读 · 0 评论 -
Coggle数据科学 | 大模型技术内参:39 种提示工程 在 29 种 NLP 任务精度对比
大语言模型(LLMs)在许多不同的自然语言处理(NLP)任务中表现出色。提示工程需要编写称为提示的自然语言指令,以结构化方式从LLMs中提取知识。与以往的最新技术(SoTA)模型不同,提示工程不需要根据给定的NLP任务进行广泛的参数重新训练或微调,因此仅依赖于LLMs的嵌入知识。原创 2024-07-27 20:49:39 · 750 阅读 · 0 评论 -
AI算法与图像处理 | 吴恩达团队新作!多模态方向
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。原创 2024-07-26 21:16:07 · 770 阅读 · 0 评论 -
Coggle数据科学 | 国产大模型速度评测(谁是更快大模型?)
2024年无疑会被载入史册,各大科技厂商纷纷争先恐后地推出了自家的大模型产品。6月25日OpenAI暂停在我国大陆地区服务,国产大模型表现更加值得期待。本文将对比较流行的国产大模型进行速度评测,通过不同类型的问题来对比模型的回答速度。统计的标准为数除以耗时。原创 2024-07-15 19:51:22 · 1029 阅读 · 0 评论 -
Coggle数据科学 | 小白学RAG:架构、策略和应用
大型语言模型(LLMs)在语言理解和生成方面展示了革命性的能力,但它们仍然面临着一些固有的局限性,比如幻觉和过时的内部知识。鉴于RAG在提供最新和有帮助的辅助信息方面的强大能力,检索增强型大型语言模型(Retrieval-Augmented Large Language Models, RA-LLMs)应运而生。RA-LLMs利用外部权威知识库,而不仅仅依赖模型的内部知识,来提高LLMs的生成质量。原创 2024-07-13 22:13:45 · 1102 阅读 · 0 评论 -
机器学习算法与Python实战 | AI Agent入门:Agent角色指令设计
Agent的核心思想是使用语言模型(LLM)作为推理的大脑,以制定解决问题的计划、借助工具实施动作。知识问答-知识库检索:大模型将基于您上传的知识文档回答问题,可选择直接上传文件,或选择已有知识集合。知识集合相关内容可查看文档我的知识。使用场景+工具:描述您的应用背景,并给出相应背景下使用的工具,让大模型可以在更为精确的场景下用匹配的工具行动。子目标拆解解:agent将大型任务拆解为小型的、可管理的子目标,从而能够高效处理复杂任务。角色设定:设定您想让Agent扮演的角色,可以给出一些您期望它具备的能力。原创 2024-07-12 18:32:54 · 1004 阅读 · 0 评论
分享