Funny_AI_LAB-CSDN博客

原创 RAD基准重新定义多视角异常检测，传统2D方法为何战胜前沿3D与VLM？

当机械臂在68个视角下审视一个普通的杯子，镜面反射、几何对称与姿态变化交织成一幅工业质检的现实图景——RAD基准告诉我们，最前沿的3D重建与视觉大模型，竟不如成熟的2D特征匹配方法来得稳定可靠。

2026-02-02 23:20:39 474

原创实测碾压！PaddleOCR-VL-1.5 来了：这可能是目前最实用的文档解析工具

百度开源，但这个模型真的没得黑，文档解析和OCR能力非常好，且只有0.9B大小。PaddleOCR-VL-1.5 是 PaddleOCR-VL 的下一代高级模型，在 OmniDocBench v1.5 上取得了 94.5% 的全新最先进准确率。

2026-01-30 14:35:35 738

原创别再手写 Prompt 了！Claude Agent Skills 顶级资源全攻略

本文为你深度盘点 2026 年最值得关注的 Claude Agent Skills 聚合市场与开源项目，带你从“只会聊天”进阶到“自动化工作流”。

2026-01-24 22:25:25 731

原创告别2D阅片时代！整理了2026首月发布的4款顶级医疗多模态模型：技术拐点已至

2026年医疗AI迎来重大突破，多家科技巨头发布新一代医疗大模型。Google的MedGemma 1.5实现了3D影像对比分析，并推出专业医疗语音识别系统MedASR；百川智能的Baichuan-M3具备中文临床深度理解能力；OpenAI的GPT-5.2提供高精度诊断和开源版本；智谱AI的GLM-4.7在开源社区表现突出。当前技术呈现三大趋势：影像理解从2D升级为3D卷轴式分析、专业医疗语音识别成为独立赛道、AI诊断从概率猜测转向逻辑推理。这些进展标志着医疗AI已从实验阶段进入实际临床应用阶段。

2026-01-18 22:42:23 592

原创别卷奥数了！清华/UniPat 团队搞了个“幼儿园测试”，把顶级 AI 的底裤都看穿了

这个项目叫 BabyVision。它的核心逻辑非常扎心：如果一个 AI 能考过 PhD，却连 3 岁小孩都能玩的“连线找茬”和“迷宫游戏”都搞不定，那它真的“看见”这个世界了吗？

2026-01-13 15:42:01 626

原创从手动调参到多智能体编排：ChatDev 2.0 正在重构我们的开发范式

如果说去年 ChatDev 1.0 的横空出世是给业界打了个样——展示了 LLM 模拟软件公司的可能性；那么最近开源的 ChatDev 2.0，在我看来，更像是一次从“作坊式垂直应用”到“通用工业级平台”的跨越。

2026-01-12 19:24:05 677

原创 OpenAI发布Healthcare全新亮相：深度解读医疗AI新篇章

2026年1月8日，OpenAI 正式发布了专为医疗行业打造的全新产品架构：OpenAI for Healthcare。

2026-01-11 14:51:23 789

原创 CES 2026终极悬念：中国机器人杀入1.6万美元战场，英伟达算力王炸能否守住王座？

本届CES以“AI Inside Every Hardware”为主题，吸引4300家参展商，其中中国展商占比22%，在AI算力、具身智能等领域表现突出。英伟达提出“物理AI”理念，推动技术从参数竞争转向场景化落地。

2026-01-09 18:55:06 746

原创 2025全球AI疯狂12个月：我们离 AGI 还有多远？

2025年是AI技术爆发式增长的一年，各大科技公司在模型性能、开源生态和多模态应用方面展开激烈竞争。OpenAI推出GPT-5系列和Codex代理，谷歌发布Gemini 3.0及Deep Research代理，Mistral保持开源领先地位。关键突破包括：上下文窗口突破千万token，推理模型成为标配，视频生成质量显著提升（Runway Gen-4.5等），自主代理实现复杂任务自动化，数学奥林匹克和编程竞赛频现AI金牌选手。开源生态蓬勃发展，中国厂商（阿里、智普、DeepSeek等）表现亮眼。这一年见证了A

2026-01-03 14:37:24 729

原创训练更稳、性能更强！DeepSeek最新论文mHC：如何以 6% 的微小代价换取大模型的逻辑飞跃？

026年元旦，DeepSeek 以一篇极具分量的技术论文《mHC: Manifold-Constrained Hyper-Connections》为全球 AI 社区献上了开年大礼。该论文由 DeepSeek 创始人梁文锋亲自署名，核心团队（解振达、韦毅轩、曹焕琦等）联合撰写。这篇论文的核心在于：通过数学上的“流形约束”，彻底解决了传统超连接（Hyper-Connections, HC）在超大规模模型训练中的不稳定与内存溢出问题。

2026-01-02 15:49:53 877

原创 DeepMind 最新《思维游戏》：2亿播放现象级纪录片，揭秘 AGI 如何从科幻走向现实

2025年11月25日，Google DeepMind 在其官方 YouTube 频道免费发布了纪录片《The Thinking Game》（中文译《思维游戏》）。这部由《AlphaGo》原班团队历时五年拍摄的90分钟纪录片，深入DeepMind伦敦总部，记录了创始人Demis Hassabis及其团队追求**人工通用智能（AGI）**的十年历程。截至2025年12月底，该片观看量已超过2亿次，成为AI领域现象级作品。

2025-12-29 19:59:59 1086

原创 Zcode：智谱AI推出的轻量级 AI IDE 编程利器

在 AI 驱动开发的浪潮下，诸如 Claude Code、Codex 和 Gemini CLI 等命令行工具（CLI）展现了惊人的编程能力，但其较高的配置门槛和纯黑窗口的操作逻辑，往往让许多开发者望而却步为了填补这一空白，智谱AI 推出了 Zcode。

2025-12-28 15:12:38 1727

原创 Andrej Karpathy最新博客更新《2025 LLM 年回顾》

Andrej Karpathy在2025年LLM回顾中指出六大范式变革：RLVR让模型学会真正推理；智能呈“锯齿状”，如鬼魂般非生物式；Cursor开启应用新层级；Claude Code实现本地AI代理；Vibe Coding大众化编程；多模态模型预示视觉化LLM GUI。2025年LLM既更聪明也更笨拙，潜力仅挖10%，未来广阔，系好安全带。

2025-12-21 18:07:57 1209

原创 Fal.ai：70人团队撬动45亿估值，生成式AI的“隐形推手”

Fal.ai正是这场革命的幕后推手——这家仅有约70名员工的公司，在最新的D轮融资中成功筹集1.4亿美元，估值从今年7月的15亿美元飙升至45亿美元。

2025-12-12 00:30:17 964

原创 Mistral AI 重磅发布 Devstral 2：开源代码模型新标杆，123B 版本性能直逼 SOTA！

Mistral AI发布新一代代码模型Devstral 2系列及命令行工具Vibe CLI。Devstral 2包含123B和24B两个版本，其中123B版本在代码基准测试中超越Kimi K2并接近DeepSeek V3.2，参数量仅为后者的1/6。同时推出的Vibe CLI工具支持终端内代码生成、解释和调试。这些产品延续了Mistral AI高效能的特点，大幅降低了高性能代码AI的使用门槛。目前123B版本提供免费API访问，开发者可通过Hugging Face获取模型。

2025-12-11 16:23:55 935

原创 100 万亿 Token 的启示：当 AI 开始“慢思考”，我们该如何选择模型？

OpenRouter 作为全球最大的 LLM 聚合平台之一，发布了名为《State of AI: An Empirical 100 Trillion Token Study》的重磅报告。通过分析其平台上发生的超过 100 万亿 token 的真实交互，这份报告揭示了开发者行为、模型偏好以及 AI 应用形态的剧烈变化

2025-12-07 17:30:21 773

原创 Meta SAM-3 重磅发布：视觉 AI 迈入“想分什么就分什么”的自由时代

Meta发布了新一代视觉基础模型Segment Anything Model 3 (SAM-3)，实现了从"分割一切"到"理解一切"的跨越。SAM-3通过创新的"可提示概念分割"技术支持文本、示例图和视觉提示，能对图像和视频中的任意概念进行检测、分割和跟踪。其混合AI/人工数据引擎显著提升了训练效率，创建了包含400多万个概念的训练集。

2025-11-20 18:24:59 1126

原创 “新王登基”Gemini 3深夜发布，最强AI到底强在哪？

Google发布突破性AI模型Gemini 3，在推理能力、多模态理解和编码效率方面树立新标杆。该模型具备博士级推理水平，在多项AI基准测试中创下新高，并引入"Deep Think"模式增强复杂问题解决能力。

2025-11-19 15:53:54 1250

原创李飞飞联合杨立昆发表最新论文：超感知AI模型从视频中“看懂”并“预见”三维世界

这篇文章明确地将世界模型视为实现空间超感知这一宏伟目标的最终阶段和核心能力。它诊断了当前 MLLMs 在此方面的不足，并提出了“预测性感知”作为一条具体的、以自监督学习为基础的路径，以开始构建这些至关重要的内部世界模型。

2025-11-12 10:36:35 1336

原创告别“NPC”人生：Human 3.0，一张通往“顶尖1%”的个人发展地图

文章详细阐述了 Human 3.0 模型的四大象限、三大发展水平、以及突破平台期的关键要素（阶段、特质与通道），并配上了核心概念图表。

2025-11-10 19:41:18 2384

原创七位AI先驱获伊丽莎白女王工程奖，李飞飞是唯一女性代表

2025 年伊丽莎白女王工程奖授予七位工程师，他们为现代机器学习的发展做出了开创性的贡献，这是人工智能（AI）进步的核心组成部分。该奖项今年的主题为现代机器学习（Modern Machine Learning），因此获奖者被 AI 领域人士完全包揽，包括诺贝尔奖得主 Geoffrey Hinton 与 John Hopfield、图灵奖得主 Yoshua Bengio 和 Yann LeCun、英伟达首席科学家 Bill Dally、英伟达创始人和 CEO 黄仁勋以及被誉为"AI 教母"的李飞飞。

2025-11-07 11:16:47 1459

原创深度解析Andrej Karpathy访谈：关于AI智能体、AGI、强化学习与大模型的十年远见

在整个圈内媒体都在喊「智能体元年」的时代，Andrej Karpathy 的话像是给业内泼了一盆冷水。近日Andrej Karpathy 上了 Dwarkesh 的播客，信息密度极高。他的核心结论可以用一句话概括：Agent 的发展还需要十年。

2025-11-05 22:31:30 876 2

原创 Dinomaly2：最新多类无监督异常检测SOTA

在计算机视觉领域，**无监督异常检测（Unsupervised Anomaly Detection, UAD）**一直是一个充满挑战但至关重要的任务。它旨在不依赖任何异常样本先验知识的情况下，识别出数据中的异常模式，广泛应用于工业质检、医疗诊断和监控系统等领域。然而，当前的 UAD 领域正面临着严重的问题。模型往往针对特定场景（如单类别、多类别、3D 数据、少样本等）进行定制，导致部署复杂、维护成本高昂，并且在多类别任务中，统一模型的性能与最先进的单类别模型之间存在显著差距 [1]。

2025-11-04 20:23:51 979

原创扩散模型的原理与进阶：一篇长达470页的统一综述解读

本专著阐述了指导扩散模型发展的核心原则，追溯了它们的起源，并展示了各种不同的模型形式如何源于共同的数学思想。扩散模型首先定义一个正向过程，该过程逐步将数据转化为噪声，并通过一系列中间分布将数据分布与一个简单的先验联系起来。其目标是学习一个反向过程，将噪声转换回数据，同时恢复相同的中间分布。我们描述了三种互补的观点。变分观点受变分自编码器的启发，将扩散视为逐步学习去除噪声的过程。基于得分的观点源于能量建模，它学习不断演化的数据分布的梯度，从而指导如何将样本引导至更可能的区域。

2025-11-03 18:25:17 1271

原创 Anthropic 最新研究深度解析：大型语言模型中涌现的内省意识

AI模型展现初阶内省能力，人类认知机制或被部分模拟 Anthropic最新研究表明，Claude系列大型语言模型已具备初步内省能力，能感知并报告特定内部状态。通过"概念注入"实验，研究人员发现Opus 4.1等高级模型可识别20%的人工植入概念（如"全大写""递归"），且在输出前就能察觉异常。更引人注目的是，模型能通过追溯性神经激活修改对自身"意图"的判断，并响应指令调节内部表征强度，这种机制与人类"白熊效应&quot

2025-10-31 17:30:08 1315

原创技术大佬的私藏书单：4小时讲透AI技术变迁史

本文基于谢青池在《张小珺商业访谈录》中分享的AI学习历程，精选36篇关键论文梳理人工智能发展脉络。文章从GPU计算（Brook）、深度学习开端（AlexNet）到Transformer革命，再到GPT系列演进，系统呈现了AI模型的范式变迁。重点分析了四大支柱（算力、架构、数据、系统）的协同发展，并通过语言模型从词向量到通用智能的跃升过程，展现AI认知能力的突破。文章为AI学习者提供了数学基础、工具使用和优质信源选择等实用建议，是一份浓缩的AI技术发展史与学习指南。

2025-10-29 19:32:47 918

原创 ICCV 2025 最佳论文系列整理：聚焦计算机视觉前沿突破

本文将深入探讨ICCV 2025的各项最佳论文奖项，包括最佳论文（Marr Prize）、最佳论文荣誉提名、最佳学生论文、最佳学生论文荣誉提名，以及表彰十年经典之作的Helmholtz Prize，旨在为读者呈现这些引领未来计算机视觉发展的突破性研究。

2025-10-23 19:53:36 1441

原创手把手拆解Git项目，复现开源四大AI神器

本文介绍了四款AI工具如何提升Git项目管理效率：DeepWiki通过AI对话解析项目架构和代码逻辑；GitHub Copilot作为编程助手提供智能代码补全；Zread自动生成结构化技术文档并支持AI问答；GitDiagram将代码库转化为交互式图表直观展示项目结构。

2025-10-23 00:26:37 880

原创 RND1：目前最强的扩散LLM

在人工智能领域，模型转换（Model Conversion）是一个核心研究方向，旨在优化现有模型架构和训练目标，而非从零开始构建整个系统。通过模型转换，我们可以更快地迭代模型，并使其适应特定的工作流程、硬件和下游任务。本文将深入探讨 Radical Numerics 团队在这一领域取得的最新进展，特别是他们提出的 RND1 模型及其背后的创新技术。

2025-10-12 16:29:18 1003

原创 OpenAI DevDay 2025：ChatGPT 进化为平台，开启 AI 应用新纪元

OpenAI在2025年10月6日的开发者大会上宣布了多项重大更新，旨在将ChatGPT从聊天机器人升级为AI应用平台。核心发布包括：ChatGPT Apps允许用户在对话界面直接使用第三方应用；AgentKit提供构建AI智能体的完整工具集；以及多个新模型API（如GPT-5 Pro和Sora 2）提升算力与功能。这些变革标志着AI正从工具向平台演进，将重塑应用生态和用户交互方式，为开发者创造新机遇，同时也将加剧与科技巨头的竞争。

2025-10-08 22:21:02 1062

原创最新文章分享：LoRA参数高效微调方法及其应用的全面分析

大模型参数高效微调 (PEFT) 方法，尤其是低秩自适应 (LoRA)，已成为一种颇具前景的解决方案。LoRA 用低秩更新取代权重矩阵，在保持性能的同时显著减少了可训练参数的数量。但与完全微调相比，LoRA 的实际性能如何？

2025-10-08 13:59:55 760

原创阿里发布一系列新模型，Qwen3-Omni强势对标Gemini

阿里巴巴发布多模态大模型Qwen3-Omni，对标谷歌Gemini，支持文本、图像、音频和视频的统一处理。同时推出升级版图像编辑模型Qwen-Image-Edit-2509，增强多图编辑和一致性；以及高效文本转语音模型Qwen3-TTS-Flash，支持多语言、多方言和丰富音色，在多项测试中达到SOTA性能。这些新模型彰显了阿里在AI领域加速技术迭代、争夺全球领导地位的决心。

2025-09-24 14:05:52 952

原创 AD-DINOv3：通过异常感知校准增强 DINOv3 的零样本异常检测

本文提出AD-DINOv3框架，首次将DINOv3模型应用于零样本异常检测任务。针对领域偏差和语义偏好问题，该框架采用跨模态对比学习策略和轻量级适配器，并创新性地设计了异常感知校准模块（AACM），引导模型聚焦异常区域。通过多层特征聚合和双损失优化，在8个工业与医疗基准测试中取得领先性能，平均AUROC达94.2%（工业）和84.5%（医疗）。消融实验验证了各模块的有效性，为通用零样本异常检测提供了新思路。

2025-09-24 11:39:45 1433

原创清华最新发布114页大型推理模型的强化学习综述

本文综述了强化学习在提升大型语言模型（LLMs）为大型推理模型（LRMs）能力中的最新进展与挑战，回顾了以 OpenAI o1 和 DeepSeek‑R1 为代表的里程碑，强调通过 train‑time RL 与 test‑time compute 可放大长链推理能力

2025-09-16 15:03:28 795

原创近期国内外AI大事

腾讯混元发布了最新生图模型‘混元图像2.1（HunyuanImage2.1）’，支持原生[2K分辨率]图像生成，具备强大的复杂语义理解和跨领域泛化能力，同时支持中英文输入和高质量文本生成。该模型已在Hugging Face和GitHub上开源，为视觉创作者提供了更高效的创作工具，并为未来[多模态图像生成]模型的研发奠定了基础。支持原生2K分辨率，提升图像生成质量与效率。具备强大的复杂语义理解能力，支持高质量的文本生成。开源模型已上线，开发者可基于其进行研究与开发。

2025-09-10 19:03:45 1106

原创腾讯浑元最新技术：具有表征对齐的多模态扩散，用于高保真拟音音频生成

2025年8月28日，腾讯混元团队宣布开源端到端视频音效生成模型HunyuanVideo-Foley56。该模型能够依据输入的视频内容及文字描述，自动生成与画面高度同步的高品质音效，有效解决了AI生成视频缺乏同步音频的沉浸感问题。

2025-08-31 16:27:11 954

原创商汤最新研究：GPT-5比其他所有模型都要强，但是相比人类还差得远

商汤科技与南洋理工联合研究发现，GPT-5在空间智能方面取得显著进展，在度量测量和空间关系任务上达到人类水平，但在心理重建、视角转换等核心能力上仍存在明显差距。研究构建了包含6大空间能力的评估体系，测试了8个基准数据集，消耗超十亿tokens。结果显示：1)GPT-5树立了新标杆；2)多模态模型在空间任务表现普遍弱于非空间任务；3)专有模型在最困难任务上未展现决定性优势。定性分析揭示，GPT-5能处理基本空间问题，但在折叠组装、复杂推理等需要心理模拟的任务上表现欠佳。该研究为理解AI空间智能现状提供了系统性

2025-08-25 10:00:46 1025

原创 nvidia最新论文：小型语言模型是代理人工智能的未来

本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济，应该采用“SLM 优先、少量 LLM 补充”的异构架构（并给出 LLM→SLM 迁移算法），同时讨论了产业惯性等阻碍。

2025-08-20 15:07:48 1047

原创缺陷检测最新综述：针对现实世界工业缺陷检测的综合调查：挑战、方法与展望

这篇综述聚焦于工业缺陷检测的重要性，指出在精度、自动化和可扩展性要求不断提升的背景下，传统检测方法已难以满足现实生产需求。论文系统回顾了基于2D（图像）和3D（点云/深度）两类模态的缺陷检测方法，重点剖析了从封闭集（closed-set）到开放集（open-set / anomaly detection）范式的演进及其原因。作者对现有方法进行了分类（包括监督式、无监督、半监督、零/少样本等子任务），并总结了主要技术路线（例如回归/重建、memory-bank、normalizing flows、discri

2025-08-18 19:58:49 1166

原创利用多模态大型语言模型实现零样本异常检测与推理

摘要： Anomaly-OV创新性地将视觉推理能力引入零样本异常检测领域，通过构建多模态知识库和推理框架，实现对未知异常的精准识别。该方法突破了传统模型依赖已知异常数据的局限，增强了检测系统的泛化能力，为工业质检等场景提供了更智能的解决方案。文章详细解析了其技术原理、创新点及应用价值。

2025-08-14 14:49:18 1361

最新淘宝类目.zip

20年taobao搜索关键词及类目.zip

空空如也