
大模型专栏
文章平均质量分 92
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
江大白 | DeepSeek的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%!(附论文及源码)
上交大提出 Visual-RFT,将 RFT 扩展至视觉任务,借可验证奖励函数(如 IoU、分类准确率奖励)与策略优化,提升 LVLMs 性能。实验显示,少样本场景下视觉任务性能飙升 20%+,相关成果开源。原创 2025-04-27 17:24:19 · 168 阅读 · 0 评论 -
CV技术指南 | CVPR‘2025 | AA-CLIP:赋予CLIP模型对异常的感知能力
为解决CLIP的“异常无意识”问题,作者提出了Anomaly-Aware CLIP(AA-CLIP),通过增强CLIP在文本和视觉空间中的异常辨别能力,同时保留其泛化能力,从而提高零样本AD任务的性能。原创 2025-04-27 16:53:08 · 556 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)
不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。原创 2025-04-25 16:26:56 · 777 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(一)
你能想象未来的AI不仅能听懂你的话、看懂你做的事,还能像人一样在真实和虚拟世界中灵活行动、与你自然互动吗?Agent AI的出现正让这个想象逐渐成为现实!它融合了多种前沿技术,在游戏、医疗、机器人等领域掀起了创新浪潮,但同时也面临着不少难题。想知道它究竟是如何做到的,又有哪些挑战吗?快来一探究竟!原创 2025-04-25 16:17:34 · 561 阅读 · 0 评论 -
CourseAI | 【综述:入门必读】RAG演变到MRAG的三个阶段
多模态检索增强生成 (MRAG) 通过将多模态数据(例如文本、图像和视频)集成到检索和生成过程中。MRAG 通过扩展 RAG 框架以包含多模态检索和生成来解决此限制,从而实现更全面和上下文相关的响应。在 MRAG 中,检索步骤涉及从多种模态中定位和整合相关知识,而生成步骤则利用多模态大型语言模型 (MLLM) 来生成包含多种数据类型信息的答案。原创 2025-04-24 17:27:06 · 814 阅读 · 0 评论 -
kaggle竞赛宝典 | 国内最快的推理模型!效果比肩 DeepSeek R1,速度快 8 倍!
以前,大家往往比拼模型的参数规模、模型效果;后来,大家开始卷价格;就在今天,智谱 AI 这位老哥,突然开源了一个速度起飞的推理模型,直接把“速度”这张牌打成了王炸。原创 2025-04-23 16:29:47 · 770 阅读 · 0 评论 -
Zilliz | 风口|继MoE、MCP与A2A之后,下一个模型协作风口是MoA
真的存在所谓的SOTA模型吗?原创 2025-04-23 16:28:21 · 1184 阅读 · 0 评论 -
集智书童 | 45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
本文探讨了一个基本问题:“我们是否能够实现基于隐空间扩散 Transformer 的端到端训练,从而释放 VAE 的潜力?”具体来说,观察到,直接将扩散损失反向传播到 VAE 是无效的,甚至会降低最终的生成性能。尽管扩散损失无效,但可以使用最近提出的表示对齐损失进行端到端训练。所提出的端到端训练方案(REPA-E)显著改善了隐空间结构,并展现出卓越的性能:相较于 REPA 和传统训练方案,扩散模型训练速度分别提升了超过 17× 和 45×。原创 2025-04-22 16:27:08 · 714 阅读 · 0 评论 -
Coggle数据科学 | 从零实现 DeepSeek R1:从基础模型到强化推理模型
在人工智能领域,语言模型的推理能力一直是研究的热点和难点。DeepSeek R1 作为一款专注于推理的先进语言模型,其训练过程和技术创新为自然语言处理领域带来了新的突破。原创 2025-04-21 17:29:44 · 1364 阅读 · 0 评论 -
新智元 | 全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力
一起来试试吧!【新智元导读】不止GPT-4o可以制作吉卜力风格图像!更多工具都可以制作吉卜力风图像。甚至2分钟之内,还能用照片生成吉卜力风格动画:蒙娜丽莎给你说Hello。原创 2025-04-19 17:28:53 · 365 阅读 · 0 评论 -
AI生成未来 | Seedream 3.0技术细节重磅发布!中文图文生成再进化,2K高清+爆改文字渲染,远超Canva!
在 Seedream 2.0 中,采用了一种严格的数据过滤策略,系统性地剔除包含轻微缺陷(如水印、覆盖文字、字幕、马赛克等)的图像数据。这种严格的过滤显著限制了训练所用数据量,尤其考虑到此类缺陷样本约占原始数据集的 35%。为解决这一问题,Seedream 3.0 引入了一种创新的“缺陷感知训练范式”。该范式包含一个专门训练的缺陷检测器,基于 15,000 张由主动学习引擎挑选并人工标注的样本构建。该检测器可通过边界框预测精确定位缺陷区域。原创 2025-04-19 17:27:17 · 896 阅读 · 0 评论 -
易安说AI | GPT-4o的吉卜力魔法让所有人都成了动画大师
一起来试试吧!无论GPT-4o背后的具体技术是什么,它的确展示了AI图像生成的惊人进步。从吉卜力风格的创意插图到产品合成图,从概念可视化到精美海报,GPT-4o为创意工作者提供了一个强大的新工具。 虽然它还不能完全替代专业设计师和摄影师,但对于快速创意概念验证、简单图像编辑以及日常视觉内容创作来说,GPT-4o已经足够强大且易于使用。原创 2025-04-17 17:32:39 · 998 阅读 · 0 评论 -
Datawhale | 聊聊强化学习发展这十年
大概在十年前,在我刚做RL的时候,其实RL没有定义,只有描述,大家认为RL是一种解决马尔可夫决策过程的方法,典型算法包括DQN、PPO。当然那时我们有一种历史局限,就认为这个描述是个充要条件。也就是认为只有value-based算法(DQN),policy-based算法(PPO)这种才算是强化学习,其他统统不算。原创 2025-04-16 21:27:58 · 894 阅读 · 0 评论 -
写代码的中年人 | 使用 VLLM 部署 DeepSeek:基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南
最近,大语言模型(LLM)的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎,在大模型推理领域迅速崛起。今天,我就带大家从零开始,在 Ubuntu 22.04 + RTX 4090 + Docker 环境下,部署 DeepSeek模型,并让它跑起来!原创 2025-04-15 17:58:53 · 815 阅读 · 0 评论 -
集智书童 | YOLO-LLTS暗夜王者 | 高分辨率特征+多分支交互注意力,先验增强攻克噪声模糊,3个数据集mAP全面领跑(建议收藏)
在低光照条件下有效检测交通标志仍然是一个重大挑战。为了解决这个问题,作者提出了YOLO-LLTS,这是一种专门为低光照环境设计的端到端实时交通标志检测算法。首先,作者引入了高分辨率特征图用于小目标检测(HRFM-TOD)模块,以解决低光照场景中模糊的小目标特征问题。通过利用高分辨率特征图,HRFM-TOD有效地缓解了传统PANet框架中遇到的特征稀释问题,从而提高了检测精度和推理速度。其次,作者开发了多分支特征交互注意力(MFIA)模块,该模块促进了在通道和空间维度上多个感受野之间的深度特征交互,显著提高了原创 2025-04-15 17:55:31 · 1161 阅读 · 0 评论 -
集智书童 | R1-VL登场 | 清华团队提出StepGRPO逐步奖励机制,重塑AI推理范式
近期研究通常通过在高质量思维链推理数据上进行的监督微调来增强多语言语言模型(MLLMs)的推理能力,这往往导致模型仅仅模仿成功的推理路径,而不理解错误的推理路径是什么。原创 2025-04-14 17:32:21 · 903 阅读 · 0 评论 -
kaggle竞赛宝典 | 10种竞赛数据预处理中的数据泄露模式解析
在机器学习教学实践中,我们常会遇到这样一个问题:"模型表现非常出色,准确率超过90%!但当将其提交到隐藏数据集进行测试时,效果却大打折扣。问题出在哪里?"这种情况几乎总是与数据泄露有关。当测试数据在数据准备阶段无意中泄露(渗透)到训练数据时,就会发生数据泄露。这种情况经常出现在常规数据处理任务中,而你可能并未察觉。当泄露发生时,模型会从本不应看到的测试数据中学习,导致测试结果失真。原创 2025-04-11 17:44:24 · 689 阅读 · 0 评论 -
极市平台 | ICLR 2025 | 比MoE快6倍,成本暴降83%!字节发布超稀疏架构UltraMem
有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。原创 2025-04-10 17:35:38 · 902 阅读 · 0 评论 -
Coggle数据科学 | 强化学习+ RAG:从基础到优化的完整实现(建议收藏!)
在本篇博客中,我们将通过使用我们自己的强化学习(RL)奖励系统来改进我们最简单的检索增强生成(RAG)模型的实现,从而将事实性查询的检索质量从53%提升到84%。原创 2025-04-09 16:21:24 · 644 阅读 · 0 评论 -
Datawhale | 零基础入门:DeepSeek微调教程来了(包含详细代码解析,建议收藏)!
微调就像给一个“学霸”补课,让它从“通才”变成某个领域的“专家”。原创 2025-04-09 15:45:33 · 901 阅读 · 0 评论 -
量子位 | LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
Llama 4 Scout,16位专家的170亿激活参数的多模态模型,单个H100 GPU可运行, 同类SOTA,并拥有10M上下文窗口Llama 4 Maverick,128位专家的170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepSeek-V3同等代码能力参数只要一半,主打与DeepSeek一样的性价比,单个H100主机即可运行。Llama 4 Behemoth:2万亿参数的超大超强模型,以上二者都由这个模型蒸馏而来;目前还在训练中;多个基准测试超过GPT原创 2025-04-07 17:02:15 · 923 阅读 · 0 评论 -
AI生成未来 | 19款模型大PK!李飞飞团队发布首个世界生成基准WorldScore:曝出世界生成三大致命伤
WorldScore基准测试揭示了当前各类世界生成方法的局限性。对于3D场景生成模型,虽然它们在静态世界生成方面表现出色,但将其扩展到4D表征并融入动态性仍然具有挑战性。对于视频生成模型,主要挑战包括可控性、长序列生成以及室外场景的生成。这些发现为未来研究指明了清晰方向:弥合3D与4D表征之间的差距、开发更鲁棒的可控性机制、以及设计能够处理长场景序列的架构。我们相信WorldScore基准将成为衡量这些方向进展的有价值工具,最终推动该领域发展出更强大、更通用的世界生成系统。原创 2025-04-06 06:30:00 · 882 阅读 · 0 评论 -
AI新智力 | AI|大模型入门(三):提示工程
前文AI新智力 | AI|大模型入门(二):微调技术-CSDN博客提到,超大规模的预训练语言模型(大语言模型)只是一个基座模型(Base Model),需要使用微调技术对模型进行优化。然而优化后的大模型仅是一个通用大模型,在使用过程中还会遇到诸如胡言乱语的问题(幻觉)、不专业的问题、不与时俱进的问题,还需要使用其他技术如提示工程(Prompt Engineering)、检索增强生成(RAG)等进行强化。原创 2025-04-05 13:54:17 · 942 阅读 · 0 评论 -
AI算法与图像处理 | DeepSeek接入本地知识库!
无论大模型能力有多强,在回答人类提问时或多或少都会存在胡说八道的情况,也就是我们所说的幻觉(Hallucination)。这段时间爆火的DeepSeek当然也会存在这类问题。原创 2025-04-05 13:49:48 · 767 阅读 · 0 评论 -
涛哥聊Python | DeepSeek 两种部署方式及官方 prompt 模版
如题。原创 2025-04-04 10:16:57 · 907 阅读 · 0 评论 -
AI新智力 | AI|大模型入门(二):微调技术
通用人工智能(AGI)作为 AI 发展的终极愿景,追求的是让智能系统具备像人类一样理解和处理各种复杂情况与任务的能力。正是由于Google公司在2021年提出的指令微调技术(Fine-Tuning)和OpenAI公司2022年提出的基于人类反馈的强化学习(RLHF)技术,才产生了以ChatGPT为代表的现代生成式人工智能(GAI)的诞生。原创 2025-04-03 22:00:41 · 705 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:FastGPT企业Agent落地实践
大模型的优势在于其知识面广,能够涵盖众多领域的知识,为用户提供丰富的信息。它们能够理解复杂问题,通过大量的数据学习和分析,找到问题的核心所在。然而,大模型也存在一些问题。它们基于概率进行判断,这使得它们在某些情况下不够稳定,可能会出现错误或不准确的回答。原创 2025-04-02 17:50:17 · 726 阅读 · 0 评论 -
数据派THU | 大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
在LLama等大规模Transformer架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。原创 2025-04-02 17:46:59 · 847 阅读 · 0 评论 -
AI新智力 | AI|大模型入门(一)
深度学习技术是机器学习的一种方法,机器学习是人工智能的一个分支;通过深度学习方法,利用海量无标注的数据进行自我学习来进行预训练,从而获得具备通用知识能力的大语言模型;大模型是AIGC(人工智能生成内容)的一个典型技术,而AIGC属于生成式人工智能(GAI)领域的一个典型应用。原创 2025-04-01 18:02:35 · 1099 阅读 · 0 评论 -
码科智能 | 边缘设备也能跑SOTA实时物体检测模型?DINOv2预训练+DETR端到端的黄金组合,第一个超60AP的模型!
今天Roboflow就开源了SOTA 实时物体检测模型RF-DETR,其在现实世界数据集上的表现优于所有现有的物体检测模型,并且是第一个在 COCO 数据集上进行基准测试时达到 60+ 平均精度的实时模型。原创 2025-03-30 03:00:00 · 664 阅读 · 0 评论 -
量子位 | 刚刚,沈向洋官宣通用视觉大模型!无需提示,就能识别万物
刚刚,IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果:通用视觉大模型DINO-X。它实现视觉任务大一统,支持各种开发世界感知和目标理解任务,包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。原创 2025-03-30 03:30:00 · 1012 阅读 · 0 评论 -
arXiv每日学术速递 | 澳门大学最新!CoT-Drive:开启自动驾驶思维链时代,突破复杂场景理解瓶颈~
感知、预测、规划三位一体的自动驾驶架构虽然在端到端的趋势下,逐渐退出历史舞台,但是对于每个环节的理解和提升,也可以推动更好的模型设计和发展。今天要介绍的这篇工作,就是要用新技术做更好的旧任务——如何运用LLMs和思维链的提示去做预测任务。首先,不可否认的是,自动驾驶车辆在动态环境中对交通参与者进行精准运动预测,是下游决策制定和安全规划的基础,也是整个系统非常核心环节。原创 2025-03-28 17:00:53 · 762 阅读 · 0 评论 -
机器学习实验室 | DeepSeek接入本地知识库
特别是垂直领域的大模型应用,对于模型回答的准确率要求非常高,因为存在幻觉问题,单纯依靠大模型难以满足使用需求,所以我们一般会通过检索增强生成(Retrieval-Augmented Generation, RAG)技术来缓解大模型幻觉,提高检索的召回率。模型设置好后,在页面顶端找到知识库,进入后上传自己的本地文档,比如笔者所在的医疗场景,专业问答非常依赖于一些临床指南和专家共识,所以笔者新建了一个叫做临床指南的知识库,专门存放各种疾病的临床指南文件。原创 2025-03-21 21:47:52 · 869 阅读 · 0 评论 -
码科智能 | 苹果开源AIMv2通用视觉模型:性能碾压CLIP和DINOv2,视觉与文本的完美融合
AIMv2是苹果公司推出的开源多模态自回归预训练视觉模型,通过深度融合图像和文本信息,提高视觉模型的性能。它采用了一种创新的预训练框架,将图像切分为非重叠的图像块,并将文本拆分为子词令牌,随后将这两种信息合并为一个统一的序列进行自回归预训练。随着数据量和模型规模的增加,AIMv2 的性能持续提升,展现出优异的扩展性。更恐怖的是:AIMV2 在训练数据量仅为 DFN-CLIP 和 SigLIP 的四分之一(12B vs. 40B)的情况下,仍能取得如此优异的成绩,且训练过程更加简便、易于扩展。原创 2025-03-21 21:45:35 · 670 阅读 · 0 评论 -
机器学习AI算法工程 | 基于大语言模型的知识蒸馏
离线蒸馏是指知识渊博的老师教给学生知识;在线蒸馏意味着教师和学生共同学习;自我蒸馏是指学生自学知识。这三种蒸馏方案可以相互结合。原创 2025-03-18 15:22:58 · 1129 阅读 · 0 评论 -
Datawhale | 吴恩达的翻译Agent项目,复现教程来了(建议收藏!)
如题,吴恩达的翻译Agent项目复现教程,直接开学!原创 2025-03-17 17:32:55 · 1483 阅读 · 0 评论 -
数据派THU | 用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解(下)
本文深入剖析了 DeepSeek R1 模型的构建过程。DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。原创 2025-03-14 16:54:33 · 1117 阅读 · 0 评论 -
数据派THU | 用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解(上)
本文深入剖析了 DeepSeek R1 模型的构建过程。DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。原创 2025-03-14 16:53:21 · 755 阅读 · 0 评论 -
Zilliz | 通义QwQ-32B+Milvus,消费级显卡布满血大模型与RAG的时代来了!
最近,通义开源的QwQ-32B模型可谓是火的一塌糊涂。作为一个中型推理模型,QwQ-32B只有320亿参数,但却在多个基准测试中展现出优秀的推理能力,几乎直逼满血版DeepSeek R1,在数学计算、写作与代码编程方面的表现更是相当不错。最重要的是,QwQ-32B不仅性能强大,还极其“亲民”,它体积小、推理快,支持消费级显卡部署,像RTX 4090这样的显卡就能轻松运行,非常适合普通个人开发者或者资源不足的科研党上手学习。不过,由于QwQ-32B采用的是。原创 2025-03-13 21:05:18 · 1237 阅读 · 0 评论 -
Zilliz | 别搞Graph RAG了,拥抱新一代RAG范式DeepSearcher
该方案不仅结合了Deep Research的优势,在此基础上,用户还能自由选择底层大模型,并通过Milvus接入本地数据,更适合企业级场景落地。原创 2025-03-11 23:21:59 · 829 阅读 · 0 评论