双木的木-CSDN博客

原创 Coursera吴恩达《深度学习》课程总结（全）

01 神经网络和深度学习（Neural Networks and Deep Learning）1-1 深度学习概论主要介绍：主要对深度学习进行了简要概述。首先，我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后，我们将例子复杂化，建立标准的神经网络模型结构。接着，我们从监督式学习入手，介绍了不同的神经网络类型，包括Standard NN，CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说，分为结构化数据和非结构化数据。近些年来，深度学习对非结构化数据的处理

2021-09-24 19:01:44 47757 5

原创 Datawhale | 关于智能体（AI Agent）最常用框架，做了超详细的总结！

本文系统介绍了当前主流的AI智能体框架，包括AutoGen、AgentScope、CAMEL和LangGraph。AutoGen采用对话驱动协作，将任务解决映射为角色化智能体的自动化对话；AgentScope作为工程化优先的多智能体平台，提供消息驱动架构和分布式支持；CAMEL通过角色扮演和引导性提示实现自主协作；LangGraph则将智能体流程建模为状态机图，支持循环和复杂逻辑。

2025-12-25 18:14:42 1008

原创我爱计算机视觉 | DIVER：融合强化学习与扩散模型，突破自动驾驶“模仿学习”瓶颈

北京交通大学、地平线等机构的研究团队提出DIVER框架，突破端到端自动驾驶的模仿学习瓶颈。该框架通过结合强化学习与扩散生成模型，在保持安全性的同时提升轨迹多样性。DIVER采用策略感知扩散生成器衍生多意图参考轨迹，并利用强化学习优化安全、多样等指标。实验表明，在NAVSIM和nuScenes等测试平台上，DIVER的多样性指标提升40-60%，碰撞率低至0.07%，在复杂场景中展现出色鲁棒性。研究证明适度发散探索比单纯模仿能带来更好的自动驾驶表现。

2025-12-25 18:10:34 740

原创计算机视觉研究院 | YOLO-LWNet：一种面向移动终端设备的轻量化道路损坏目标检测网络

本文提出YOLO-LWNet轻量化道路损坏检测算法，针对移动终端设备资源受限场景。通过设计新型LWC轻量化模块，优化注意力机制与激活函数，构建轻量化骨干网络和高效特征融合网络，改进YOLOv5架构。在RDD-2020数据集上测试表明，相比YOLOv5-s，YOLO-LWNet-Small模型规模缩减48.4%，计算复杂度降低30%，检测精度提升1.7%，实现了精度与效率的良好平衡。该算法更适合移动终端部署，为道路损坏检测提供了轻量化解决方案。

2025-12-24 17:56:07 854

原创 Coggle数据科学 | TabPFN-2.5 解析：表格基础模型如何实现 SOTA 性能与生产级速度

TabPFN-2.5作为新一代表格数据基础模型，在TabArena基准测试中表现卓越，分类任务胜率达87%，回归任务85%。相比传统树模型，它采用Transformer结构和合成数据预训练，实现训练即预测，大幅降低调参时间。技术升级包括更深的网络架构、特征组优化和引入"思考行"机制，推理速度提升1-2.3倍。该模型已获学术界400+引用和产业界200万+下载，成为成熟的生产工具。建议使用H100/A100 GPU和多GPU并行以获得最佳性能。

2025-12-24 17:54:41 1352

原创数据之外的人间 | Paper2Slides：一键将论文转换为专业演示文稿的AI工具全解析

Paper2Slides的出现，不仅仅是提供了一个便捷的PPT制作工具，更代表了AI技术在学术传播领域的巨大潜力。它让科研人员从繁琐的演示文稿制作中解放出来，能够将更多精力投入到真正的研究工作中。从更广泛的角度来看，Paper2Slides这样的工具正在改变学术交流的方式。它使得高质量的学术演示不再需要专业的设计技能，任何人都可以通过简单的操作生成专业级别的演示文稿。这不仅提高了学术交流的效率，也降低了学术传播的门槛。当然，我们也要认识到，AI工具终究只是辅助手段。

2025-12-23 22:25:29 1454

原创计算机视觉研究院 | Bearing-DETR：一种基于RT-DETR的轻量化轴承缺陷检测深度学习模型

将这一技术整合到我们的网络中，标志着深度学习在轴承缺陷检测这类复杂任务中的应用迈出了重要一步，同时凸显了该模型的灵活性及其在更广泛工业场景中的应用潜力。它在高目标密度与高缺陷多样性条件下的增强检测能力，凸显了其适用于复杂工业环境的部署价值——此类环境中，多样且细微的缺陷检测至关重要。的引入是为了提升模型在复杂工业图像中对缺陷相关特征的聚焦能力，相比标准注意力机制，它能更有效地适配不同形状与尺寸的缺陷。的靶向注意力之间的协同作用，显著提升了检测流程的精度与速度——这对可靠高效的工业应用至关重要。

2025-12-23 22:24:42 632

原创我爱计算机视觉 | NeurIPS 2025 | SuperCLIP：对比学习加上分类任务，使CLIP更强了！

华中科技大学与字节跳动团队提出SuperCLIP框架，通过增加轻量级分类任务改进CLIP模型的细粒度识别能力。研究发现CLIP虽擅长全局语义匹配，但难以区分细微差异（如动作、空间关系等）。SuperCLIP在视觉编码器上添加线性分类层，利用文本分词作为分类标签，使模型同时学习全局对比和局部分类任务。实验表明该方法在零样本分类、图文检索等任务上显著提升性能（如ImageNet准确率提高5.1%），且计算开销仅增加0.077%。该方案还缓解了CLIP对大批量训练的依赖，展现出优异的泛化性和鲁棒性。

2025-12-22 17:46:40 1202

原创集智书童 | Pose-RFT：首个混合动作强化微调MLLM，用HyGRPO超越SMPL回归实现3D人体姿态精准生成

本文提出Pose-RFT框架，首次将强化学习应用于多模态大语言模型(MLLMs)的3D人体姿态生成任务。通过创新性地将任务建模为混合动作空间强化学习问题，开发HyGRPO算法联合优化离散语言预测和连续姿态生成。结合四种任务特定奖励函数，在3DPW和Human3.6M等基准测试中显著提升性能，验证了该方法在捕捉空间对齐和语义一致性方面的有效性。研究表明，强化微调特别在文本到姿态生成任务中效果显著，为多模态姿态生成提供了新思路。

2025-12-22 17:46:05 774

原创 python | matchering，一个超酷的 Python 库！

matchering支持分离info和warning日志，便于将不同级别的信息写入不同位置。这在构建专业音频处理系统时非常有用，可以将警告信息单独记录以便排查问题。# 分别处理info和warning日志mg.log(warning_handler=lambda msg: print(f"[警告] {msg}")当需要更精细控制输出参数时，可使用mg.Result类。它允许指定输出格式、位深、是否启用限制器、是否归一化等选项，满足专业音频工程师的多样化需求。results=[

2025-12-20 21:57:12 361

原创极市平台 | TGRS 2025 | 山东大学×提出HDNet：融合多尺度高频信息增强的混合域红外小目标检测网络

本文提出了一个混合域网络（HDNet），旨在结合空间域的多尺度感知能力与频率域的背景抑制能力，以解决红外小目标检测中目标尺寸多变及背景干扰严重的问题。为实现这一目标，作者设计了两个核心模块：其一是位于空间域的多尺度空洞对比度卷积（MAC）模块，通过利用多个不同核尺寸的并行空洞对比度卷积，增强了网络对尺寸微小且多变目标的感知能力并提升了目标与背景的对比度；

2025-12-20 21:56:46 1020

原创 AI生成未来 | 24FPS实时生成！腾讯混元推出WorldPlay：打破“速度与记忆”悖论,720P无限流视频随意玩！

WorldPlay提出了一种创新的实时交互式世界模型，通过双重动作表示（结合键盘输入和摄像机姿态）、重建上下文记忆机制和时间重构技术，解决了长期几何一致性与实时性的平衡问题。模型采用上下文强制蒸馏方法，有效防止误差累积，实现24FPS的720p视频生成。实验表明其在多样化场景中保持卓越的视觉质量和几何一致性，支持3D重建、文本驱动事件等应用。该技术为具身智能和虚拟环境开发提供了新思路。

2025-12-19 17:55:19 1213

原创数据派THU | 原创丨从文字到流动的世界：AI视频生成模型背后的数学

AI视频生成技术正迎来突破性发展，以Vidu、Sora等模型为代表，实现了"文字直接生成视频"的跨越。核心技术基于扩散模型和Transformer架构：扩散模型通过"去噪"学习从噪点重建画面，Transformer则负责理解时空信息。新一代模型在时空一致性、物理模拟和叙事能力上取得显著进步，能生成长达1分钟的高质量视频。其数学本质是学习高维视频流形结构，通过提示词约束语义子空间采样。尽管技术带来创作民主化等机遇，但也面临深度伪造、版权争议等挑战。这项技术正在重塑内容创

2025-12-19 17:26:14 1022

原创集智书童 | 告别DETR“内卷”！Route-DETR根治Query竞争内耗，实现57.6% SOTA性能

Route-DETR提出创新方法解决DETR类目标检测器的Query竞争问题。通过自适应成对路由机制，在解码器自注意力层动态引导Query间的竞争与协作关系。实验表明，该方法在COCO数据集上使DINO模型mAP提升1.7%，基于Swin-L的模型达到57.6% mAP的SOTA水平。双分支训练策略确保推理零开销，同时该方案在实例分割任务中也展现良好泛化性。研究为改进基于Query的视觉模型提供了新思路。

2025-12-18 17:26:41 868

原创 Zilliz | embedding分数不是唯一解！搜索场景，如何根据元数据做加权rerank

本文介绍了Milvus 2.6.2推出的BoostRanker功能，这是一种基于元数据的重排序策略。BoostRanker通过过滤表达式和权重配置，可以在不改动索引和向量模型的情况下，实现对检索结果的智能重排。该功能适用于电商搜索（提升付费商品权重）、内容搜索（优先官方内容）和企业知识库（置顶权威文档）等场景。文章详细解析了BoostRanker的工作原理、核心参数配置，并通过文档检索案例展示了如何提升官方文档的排序权重。

2025-12-18 17:24:30 825

原创阿旭算法与机器学习 | 【SAM3教程-1】SAM3 使用文本提示进行图像分割详细步骤与示例【附源码】

本文介绍了基于SAM3视觉大模型的文本提示图像分割方法。文章详细阐述了五个核心步骤：模型初始化与配置、图像预处理、文本提示设置、模型推理以及结果后处理与可视化。通过代码示例展示了如何利用文本提示（如"穿红衣服的人"）实现精准目标分割，并提供了多个分割效果示例。SAM3模型支持点、框和文本多种提示方式，其文本提示功能显著提升了交互性和实用性，使用户能通过自然语言描述快速分割目标物体。该方法在保持SAM系列优势的同时，进一步拓展了应用场景和易用性。

2025-12-17 17:40:53 1614

原创机器之心 | 阿里妈妈发布MUSE：用多模态搞定十万级超长行为序列，并开源Taobao-MM数据集

阿里妈妈与武汉大学团队给出的答案是 MUSE（MUltimodal SEarch-based framework）。这不仅仅是一个新的 CTR 模型，更像是一个给推荐系统安装的 “多模态海马体”。它利用图像与文本的语义力量，重构了用户跨越时空的兴趣图谱。

2025-12-17 17:30:58 842

原创 OpenCV与AI深度学习 | StereoWorld：妙用视频生成模型，2D视频转成高质量3D立体视频

总而言之，StereoWorld的出现，为我们提供了一个将海量2D视频资源转化为沉浸式3D体验的新思路。它通过创新的几何感知正则化和专门构建的大规模数据集，显著提升了单目到立体视频生成的质量和真实感。不过文中称速度还需要进一步优化，目前的模型转一段几秒钟的视频需要6分钟。THE END!

2025-12-16 18:23:07 1157

原创集智书童 | 遮挡不再成难题！GRASPTrack横空出世！Voxel化3D点云让遮挡追踪准确率飙升12%

1. 计算效率问题：当Voxel网格大小参数设置过小时，会导致计算开销显著增加，FPS降至9.3，影响实时性。2. 深度估计依赖性：该方法依赖于单目深度估计模型生成的深度图，如果深度估计不准确，可能会影响整个跟踪性能。3. 参数敏感性：遮挡敏感度因子的选择对跟踪性能有显著影响，需要根据不同场景进行调整，参数过小或过大都会导致性能下降。4. 相机内参依赖：由于评估的视频序列缺乏相机内参，需要通过交互式对齐投影的地面网格与每张图像来估计它们，可能引入额外的误差。

2025-12-16 18:22:18 1173

原创 Datawhale | 再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布（建议收藏！）

本文介绍了一套利用AI生成高质量学术插图的工作流程，将绘图过程拆解为"逻辑构建"和"视觉渲染"两个环节。通过LLM将论文内容转化为结构化视觉指令，再交由绘图模型生成符合CVPR/NeurIPS标准的示意图。文章详细说明了如何选择布局原型、定义物理区域、设置视觉元素，并提供了修改微调的方法。同时强调AI仅作为辅助工具，必须严格审核科学准确性，禁止用于实验数据图表。还分享了去除水印、配色方案等实用技巧，帮助科研人员高效制作专业插图。

2025-12-15 17:25:57 2501

原创周报 | 25.12.8-25.12.14文章汇总

本周AI领域技术动态聚焦多模态与计算机视觉创新：EM-DETR通过特征匹配迭代训练实现医学图像检测突破；X-AnyLabeling3.0平台集成Qwen3-VL等先进模型支持多模态标注；AgriLiRa4D数据集填补农业无人机SLAM研究空白。同时涌现多项突破性成果：普林斯顿C³模型改进视频生成不确定性估计，AutoSeg3D实现3D物体在线分割超越ESAM，SimScale框架提升困难场景仿真能力。技术工具方面，Jina库和Python列表推导式技巧获推荐，Milvus空间索引技术展示商业应用潜力。

2025-12-15 17:24:55 502

原创 python | jina，一个非常实用的 Python 库！

Jina是一个开源的云原生AI服务框架，专为构建和部署机器学习模型而设计。它支持gRPC、HTTP和WebSocket通信协议，能处理文本、图像等多模态数据。核心功能包括：通过Executor封装业务逻辑，使用Deployment部署服务，利用Flow编排复杂流水线。Jina提供动态批处理、流式输出和弹性扩展等特性，支持从本地开发到生产环境的无缝过渡。安装简单，只需pip install jina即可开始使用。该框架特别适合神经搜索系统、大语言模型服务等AI应用的快速开发和部署。

2025-12-14 17:05:05 735

原创 AI生成未来 | 铁钉水上漂、子弹穿苹果不炸？Nano-Banana等17款SOTA模型颤抖迎物理逻辑推理大考！

《PicWorld：首个评估文生图模型隐含推理能力的基准》摘要美团MeiGen团队提出PicWorld基准，首次系统性评估文本到图像模型对隐含世界知识（物理定律、逻辑推理）的理解能力。该基准包含1,100个提示词，涵盖物理世界、抽象知识和逻辑推理三大领域。研究团队开发了PW-Agent评估框架，通过多智能体协作实现分层精细化评估，包括知识提取、假设构建、视觉感知和推理评判四个模块。实验测试了17个主流模型，结果显示现有模型（尤其是开源模型）在物理真实性和因果推理方面存在显著不足。PW-Agent与人类评估

2025-12-14 16:31:43 840

原创 Zilliz | 语义+R-Tree空间索引：Milvus如何帮外卖APP做3公里内美食推荐| Milvus Week

Milvus 2.6创新性地将地理空间数据与向量检索融合，通过引入Geometry数据类型和R-Tree空间索引，实现空间+语义的联合检索。这一突破使AI应用（如本地生活推荐、自动驾驶）能同时理解语义和空间关系，显著提升决策效率。例如外卖平台可一次性检索"3公里内口味相似的餐厅"，自动驾驶系统能快速判断车辆位置与障碍物关系。该技术解决了传统方案中地理数据与向量数据割裂的问题，为智能应用提供统一高效的检索方案。

2025-12-12 17:56:10 849

原创极市平台 | NeurlPS‘25开源 | 中科院新作AutoSeg3D：在线分割一切3D物体，超越ESAM！

本文提出AutoSeg3D，将在线3D分割重构为实例跟踪问题，通过长-短期记忆查询流统一维护对象ID与特征。该方法采用三个协同模块：长期记忆(LTM)实现跨帧ID匹配，短期记忆(STM)注入时间上下文，空间一致性学习(SCL)抑制视觉基础模型的过分割问题。实验表明，在ScanNet200上比ESAM提升2.8AP，同时在ScanNet、SceneNN和3RScan数据集上保持优异性能，且具备实时处理能力。该框架为具身智能提供了高效稳定的环境感知方案。

2025-12-12 17:55:06 852

原创 arXiv每日学术速递 | 李弘扬团队最新！SimScale：显著提升困难场景的端到端仿真框架，NavSim新SOTA

李弘扬团队提出SimScale框架，通过3D高斯Splatting技术生成高保真仿真驾驶场景，解决自动驾驶数据瓶颈问题。该研究首次证实仿真数据的规模效应：在固定真实数据量情况下，仅增加仿真数据即可持续提升模型性能。实验显示，在挑战性场景中性能提升最高达6.8分。关键创新包括反应式交通环境构建、探索性伪专家轨迹生成机制，以及发现多模态建模对数据扩展的重要性。该工作为自动驾驶训练提供了新范式，相关代码和数据即将开源。

2025-12-11 17:01:47 1157

原创我爱计算机视觉 | 普林斯顿大学提出C³：让视频生成模型“知道自己不知道什么“，校准不确定性估计，精准定位幻觉区域

【研究摘要】普林斯顿大学团队提出C³方法，首次实现可控视频生成模型的不确定性量化。该方法通过严格评分规则优化校准性，在潜空间进行子块级密集不确定性估计，并将结果解码为可解释的RGB热图（蓝色表高置信、红色表不确定、绿色表错误）。实验表明，该方法在机器人学习数据集上实现接近完美校准（ECE<0.03），能精确定位幻觉区域，且在分布外条件下保持稳健性能。该技术解决了视频模型"不知道自己何时出错"的关键缺陷，为安全关键应用提供可信度评估工具。代码已开源。

2025-12-11 16:59:02 873

原创码科智能 | 视觉推理任务大一统？一个一体化的多模态推理通用模型！支持问答、描述、跟踪及分割等复杂任务

本文介绍港中文与美团联合研发的多模态推理通用模型OneThinker，该模型突破图像与视频界限，可同时处理问答、定位、跟踪、分割等十余项视觉任务。研究团队构建60万样本数据集，利用34万条思维链数据训练模型，在31个基准测试中表现优异，如图像问答准确率70.6%、物体跟踪指标84.4。该工作实现了视觉理解的大一统，为未来智能系统（如家用机器人）提供全能解决方案。所有代码、模型和数据均已开源。

2025-12-10 18:00:30 689

原创计算机视觉life | AgriLiRa4D：农业无人机SLAM研究的里程碑式数据集，填补真实农田环境空白

农业无人机SLAM研究获重要数据集支持。由国内多所高校与科技公司联合发布的AgriLiRa4D数据集，首次针对农业环境中的SLAM技术挑战，整合了LiDAR、4D雷达和IMU等多模态传感器数据，覆盖平坦农田、丘陵和梯田三种典型场景。该数据集提供厘米级精度地面真值，并通过对比测试验证了LiDAR-惯性系统在复杂农田环境中的稳定性。研究人员指出，多传感器融合技术能显著提升无人机在低纹理、动态植被等挑战性条件下的定位能力。该数据集已开源，将助力精准农业自主导航技术发展。

2025-12-10 17:59:48 794

原创 Python当打之年 | 技巧 | 30个常用Python列表推导式

本文整理了30个Python列表推导式实用案例，涵盖数字序列生成、字符串处理、条件筛选、字典操作等多种场景。内容包括：生成数字序列和平方列表（1-2）、过滤偶数和空字符串（4-5）、字符串转大写和长度计算（6-7）、类型转换和条件表达式（8-9）、二维列表展开和笛卡尔积（10-11）、多条件筛选和嵌套列表处理（12-14）、字典过滤和反转（15-28）等实用技巧。这些简洁高效的代码示例适用于数据处理、文件操作等日常编程任务，可帮助开发者提升Python编码效率。

2025-12-09 17:15:27 755

原创数据派THU | AI 赋能颅内动脉瘤检测：RSNA 竞赛顶尖方案解析

本文介绍了RSNA颅内动脉瘤检测竞赛的五大顶尖解决方案。竞赛任务是通过3D医学影像检测颅内动脉瘤并精确定位其位置。优胜方案采用创新策略：第一名方案先分割血管再检测动脉瘤，模仿放射科医生诊断流程；第二名使用多任务3D模型；第三名将3D数据投影为2D图像；第四名采用回归模型定位血管；第五名将3D问题分解为2D任务。这些方案通过精妙的算法设计，展现了AI在医学影像分析中的潜力，有望提升动脉瘤早期诊断率，具有重要临床意义。

2025-12-09 17:06:21 1025

原创集智书童 | 特征匹配+迭代训练 | EM-DETR实现医学图像检测三大模态性能突破

1. 当钙化与肿块共存并被标注为同一个边界框时，模型检测结果受到影响，预测结果与真实标签不完全匹配2. 在血管造影数据集中，由于标注噪声（部分图像中主要血管树外的狭窄区域未标注）导致改进效果未达预期3. 在较大的真实标注区域内预测到多个较小的假设框，导致精确度分数降低。

2025-12-08 21:32:04 1067

原创江大白 | 多模态训推标注一体化平台 X-AnyLabeling 3.0 正式发布: Qwen3-VL、SAM3、远程推理全升级！等你来体验

X-AnyLabeling 3.0发布：一站式AI标注平台的全面升级本文介绍了X-AnyLabeling 3.0版本的核心更新，这是一款开源免费的多模态AI标注工具。新版本推出PyPI一键安装包、远程推理服务框架X-AnyLabeling-Server，深度集成Ultralytics实现从标注到训练的全流程闭环。平台新增Chatbot对话机器人、VQA视觉问答面板等智能功能，集成100+预训练模型覆盖13大视觉任务。在交互体验上，新增Photoshop风格导航器、数字快捷键管理等20余项创新特性。

2025-12-08 17:57:34 2236

全国省-市-区城市经纬度汇总.csv

空空如也