自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寸先生的AI道路

可上九天揽月,可下五洋捉鳖,谈笑凯歌还

  • 博客(347)
  • 资源 (1)
  • 收藏
  • 关注

原创 突破“网格”枷锁!耶鲁大学提出FunDiff:让扩散模型真正读懂连续物理世界

如果说扩散模型是“大脑”,那么**FAE(Function Autoencoder)**就是感知物理世界的“眼睛”和“手”。它是如何工作的?编码器(Encoder):采用了Vision Transformer (ViT) 与 Perceiver 模块的组合。ViT负责提取特征,而Perceiver通过一组可学习的“潜在查询(Latent queries)”,将不同分辨率、不同采样点的原始数据投影到统一的隐空间向量中。这使得模型具备了天然的分辨率无关性。解码器(Decoder):这是连续性的关键。

2026-02-21 09:05:47 529

原创 【无标题】

结直肠癌(CRC)是全球第三大常见恶性肿瘤,而内镜下息肉切除术是预防 CRC、降低死亡率的关键手段。然而,结肠镜检查环境复杂,低对比度、光照不均以及手术器械的干扰常导致诊断精度受限。近日,来自哈尔滨工业大学等研究机构的团队提出了一种名为的新型深度学习网络,通过融合与,实现了息肉与手术器械的高精度、实时分割。,本文对其原理和核心模块代码进行解读。

2026-02-20 10:39:11 546

原创 AAAI 2025 | 扩散模型+信息瓶颈:解决AI归因图“模糊”难题的新范式

利用扩散模型的噪声性质,可以优雅地解决高维数据的互信息计算难题。对于医疗影像分析(通过CT找病灶)、自动驾驶(分析识别盲区)等对精确度要求极高的领域,这种像素级的可解释性方法将具有巨大的应用潜力。

2026-02-11 08:28:19 340

原创 医疗 AI 如何说“我不知道”?详解 CLEAR-Mamba 的不确定性量化机制

在狄利克雷分布中,全 1 代表“完全无知”(Zero Evidence),而全 0 在数学上是未定义的(非法值)。证据与参数的关系:在证据深度学习(EDL)中,狄利克雷分布的参数α\alphaα与模型输出的“证据”eeeαkek1αk​ek​1eke_kek​(Evidence):模型在特征图中找到的支持第kkk类的证据量,必须≥0\ge 0≥0。完全无知状态:意味着模型什么证据都没找到,即ek0e_k = 0ek​0。代入公式αk0。

2026-02-08 08:46:51 541

原创 漂移模型:高质量一步生成(2026年2月何凯明团队新作)

漂移场是一个关于空间位置x的漂移场是一个关于空间位置xxx的函数,它决定了样本在训练迭代中的移动方向和距离。xi1xiVpqixixi1​xi​Vpqi​​xi​其中,xix_ixi​是当前模型生成的样本。漂移场VVV的存在逻辑是:它根据数据分布ppp和生成分布qqq之间的差异来计算每一个样本应该如何“漂移”。

2026-02-07 08:28:21 403

原创 破解红外“魅影”难题:WMRNet 如何以频率分析与二阶差分重塑小目标检测?

在现代遥感与预警系统中,红外小目标检测(IRSTD)被公认为一项极具挑战性的任务。不同于常规的目标识别,红外图像中的目标往往仅占数个像素,不仅缺乏纹理信息,还极易淹没在复杂的背景噪声与云层干扰中。为了突破现有技术的瓶颈,西安电子科技大学与重庆邮电大学的研究团队2025 年 12 月 12 日在IEEE Transactions on Image Processing提出了一种名为的新型网络架构。本文对其进行解读,补充必要的数学背景,由于论文没有开源代码,我尝试复现核心模块,并封装成可插拔模块。

2026-01-30 11:46:51 619

原创 放弃自注意力?北大/清华提出 WaveFormer:用物理波动方程重塑视觉骨干网

视觉建模的尽头只能是 Transformer 吗?或许,大自然早已在物理规律中写好了答案。最近,一篇2026 年 1 月挂在arXiv的论文引起了广泛关注。它提出了一种名为的新型视觉骨干网络,彻底颠覆了我们看待图像特征的方式。不同于传统的堆叠算子,WaveFormer 引入了一个其核心灵魂在于借用了物理学中的。传统的扩散模型或基于热方程的方法本质上是“各向同性”的强力低通滤波器,会导致高频细节(边缘、纹理)随深度增加而迅速模糊。而 WaveFormer 利用波动方程的。

2026-01-30 09:57:48 614

原创 YOLOv1-v26实时目标检测架构的演进思想与技术

本文系统地梳理了从2016年诞生到2026年预见性的十年演进历程。文章核心聚焦于从传统的“分治法”向的哲学转变,详细解析了各代版本如何通过优化主干网络、引入及后续转向,在检测精度与推理速度之间寻找动态平衡。技术演进的主线涵盖了、梯度信息保护以及最终消除与极致推理效率发展的未来工业趋势。

2026-01-27 17:58:21 902

原创 MedSegDiff:基于扩散模型的医学图像分割

本文系统分析了两代基于扩散模型的医学图像分割方法:MedSegDiff和MedSegDiff-V2。MedSegDiff首次将去噪扩散概率模型(DPM)应用于医学图像分割,通过动态条件编码和FF-Parser模块解决了病灶边界模糊问题。MedSegDiff-V2则创新性地将Transformer与扩散模型结合,提出锚点条件和频谱空间Transformer架构,在20项任务中刷新性能记录,同时显著提升推理效率。两代模型的核心差异体现在:V1采用ResUNet架构,专注高频噪声抑制;V2引入ViT骨干,通过U-

2026-01-27 11:37:24 548

原创 【Nature 2025】**LCTfound** :肺部 CT 视觉基础模型

本文发表在Nature Communications 2025,设计一个名为 LCTfound 的肺部 CT 视觉基础模型,它通过大规模的自监督学习,旨在成为肺部影像诊断与处理的通用智能平台。作者主要来自清华大学、复旦大学、广州医科大学第一附属医院等单位,背靠国家支持,资源和团队都比较豪华,训练集直接来自五个医院收集,验证集才使用开源数据集,算力直接上天河二号超算平台,文章撰写和配图都很漂亮,这不是常规科研机构能做到的,因此本文先概述下文章大意,然后主要从代码角度去分析模型原理,本研究展示了DDPM 如何同

2026-01-26 14:25:29 892

原创 Google医疗大模型MedGemma本地部署实测

MedGemma 1.5 (4B)是Google公司于2026年1月14日面向开发者的基础医疗多模态大模型(非临床诊断工具),本文对本地如何部署该模型进行详细说明,并开发了完整的web-UI界面方便使用,代码见下文,支持:1.纯文本问答2.单图提问3.多图连续追问。

2026-01-24 16:00:43 882

原创 [Nature 2026]AFLoc:一种用于通用无标注病理局部定位的多模态视觉‑语言模型

AFLoc:基于多模态对齐的医疗影像无监督病灶定位方法 摘要:Nature最新发表的AFLoc模型创新性地通过多层级语义对齐技术,实现了无需人工标注的医疗影像病灶定位。该模型将医学影像的局部特征与临床报告文本进行三级对齐(单词级、句子级、报告级),在胸部X光、眼底图像等多种模态上展现出卓越的跨场景泛化能力。实验证明,AFLoc不仅超越了现有自监督方法的定位精度,还能显著提升临床诊断效率(准确率+8.7%,阅片时间缩短20.5%)。研究采用ResNet-50和BioClinicalBERT分别提取图像与文本特

2026-01-23 08:33:58 810

原创 从物理信息引导到渐进式蒸馏:双阶段扩散框架用于大脑磁共振超分辨率

该研究提出一种双阶段扩散框架,用于提升低场强MRI图像分辨率。通过教师-学生模型设计,第一阶段利用物理信息引导(梯度非线性校正和偏置场校正)的潜在扩散模型实现高精度超分辨率;第二阶段通过渐进蒸馏获得轻量化学生模型,在保持性能的同时降低69%计算量。该方法有效解决了临床低分辨率MRI设备与高成本高分辨率设备间的差距,无需额外物理校正数据即可生成接近3T/7T的高质量图像,具有重要临床应用价值。

2026-01-21 11:33:23 871

原创 物理驱动的扩散模型:从底层原理由科学计算到影像医学

物理驱动扩散模型在科学计算与医学影像中的创新应用 摘要:物理驱动扩散模型通过将物理定律(如PDE方程、统计力学先验)嵌入生成式深度学习架构,解决了纯数据驱动模型在科学计算中的关键挑战。在计算流体动力学领域,这类模型利用PDE残差梯度实现了高保真湍流场重构;在医学MRI中,通过整合Bloch方程和k空间热扩散原理,显著提升了欠采样重建精度。研究还展示了该技术在显微图像生成、分子模拟优化等领域的突破性进展,包括采用离散小波变换保护高频细节、利用低密度近似加速分子采样等创新方法。当前研究正致力于解决推理延迟、物理

2026-01-20 12:36:29 642

原创 【NeurIPS 2024+Nature 2025]揭开“隐形”肿瘤的面纱:AI + 物理模型,开启胶质母细胞瘤精准治疗新篇章

当 AI 掌握了物理规律,它就能穿透影像的迷雾,预见未来的复发风险。该方法不仅局限于脑肿瘤,还可以扩展到其他受刚性物理模型限制的现实世界问题中。目前,该项目的代码已在GitHub 开源,研究团队希望通过技术共享,加速这一工具向临床转化的进程。项目地址。

2026-01-19 18:02:22 936

原创 一堂把可解释性讲清楚的课:用同一个分类模型对比 Grad-cam、lime 和 Shap

本文提出了一种名为HS-FPN的新型特征金字塔网络,用于解决微小目标检测中的特征匮乏和空间感知不足问题。该网络包含两个核心模块:高频感知模块(HFP)通过离散余弦变换滤除低频背景噪声,结合通道和空间注意力机制增强微小目标特征;空间依赖感知模块(SDP)采用跨注意力机制捕获像素级长程依赖关系。实验表明,HS-FPN能显著提升微小目标的信杂比,可作为插件模块集成到主流检测器中。作者还提供了关键模块的PyTorch实现代码。

2026-01-19 16:07:22 957

原创 【AAAI2025】HS-FPN:微小目标检测的频域与空间感知架构

本文提出了一种名为HS-FPN的新型特征金字塔网络,用于解决微小目标检测中的特征匮乏和空间感知不足问题。该网络包含两个核心模块:高频感知模块(HFP)通过离散余弦变换滤除低频背景噪声,结合通道和空间注意力机制增强微小目标特征;空间依赖感知模块(SDP)采用跨注意力机制捕获像素级长程依赖关系。实验表明,HS-FPN能显著提升微小目标的信杂比,可作为插件模块集成到主流检测器中。作者还提供了关键模块的PyTorch实现代码。

2026-01-18 20:00:19 894 1

原创 VMamba环境本地适配配置

由于需要从源码改造VMamba,但官方给出的编译好的causual1d和mamba_ssm都是版本都于本地其他库不对应,因此从源码层级编译安装,这里记录一下,其他需要编译适配CUDA的都是一样,仅供参考。nvcc -V。

2026-01-18 12:45:36 733

原创 MobileMamba中的小波分析

MobileMamba提出了一种轻量级多感受野视觉Mamba网络,通过创新的MRFFI模块平衡速度与精度。该模块将特征分为三路:WTE-Mamba(结合小波变换增强高频细节)、多核深度卷积(捕捉局部信息)和恒等映射(减少冗余)。实验表明,MobileMamba在ImageNet分类任务中达到83.6%的Top-1准确率,比同类Mamba模型快21倍,同时在下游目标检测任务中保持显著优势。核心创新在于通过小波变换扩大有效感受野,并采用三阶段架构和知识蒸馏等优化策略,实现了高效全局建模与局部细节捕捉的平衡。

2025-12-17 21:38:05 683

原创 去噪扩散模型相关理论第一部分 变分自编码器VAE

因为内容很重要,本次内容会有点长,分成多个部分逐步推理DDPM的相关理论。去噪扩散概率模型(Denoising Diffusion Probabilistic Model,简称DDPM)是一种强大的生成模型,能够生成高质量的图像、音频以及其他类型的数据。其工作原理是模拟数据样本在噪声干扰下逐渐退化的过程,并在此基础上学习如何逆转这一退化过程,从而生成新的、无噪声的数据样本。。

2025-06-16 15:06:35 1030

原创 No More Adam: 新型优化器SGD_SaI

SGD-SaI方法不仅在传统卷积神经网络(CNN)任务上表现良好,在Transformer、ViT、GPT-2等参数分布高度异质的大模型任务中,也能够实现与主流自适应方法(AdamW、Adam-mini等)相当甚至更优的性能,同时具备更好的超参数鲁棒性和极低的内存占用,显著提升了大模型训练的可扩展性与资源利用效率。实验表明g-SNR在参数块内具有时间上的稳定性(即初始化时刻的分布基本决定整个训练过程),据此对参数分组的学习率进行归一化缩放,有效平衡了参数块间的训练进度。

2025-05-17 16:21:28 1149

原创 CVPR2025 vGamba:融合选择性状态空间与自注意力的高效视觉骨干

vGamba是一种混合视觉骨干模型,旨在高效捕捉视觉识别任务中的长距离依赖关系。该模型结合了状态空间模型(SSMs)和注意力机制,以增强效率和表达能力。

2025-05-06 10:02:22 1183

原创 ADVANCES AND CHALLENGES IN FOUNDATION AGENTS概述

第一章开篇介绍了人工智能 (AI) 和智能Agent的概念,并探讨了其在现代 AI 发展中的作用。1.1 AI Agent的崛起和发展Agent的定义:智能Agent是指能够感知环境、做出决策并采取行动以实现特定目标的系统。P12Agent范式的重要性:Agent范式是现代 AI 的基石,它推动着 AI 在各个领域的应用,例如对话助手、机器人和多智能体系统。LLM 时代的Agent。

2025-05-05 15:43:13 1135

原创 人工智能顶刊论文TPAMI2024-新型优化器Adan

本文发表于人工智能顶刊TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence),原论文数学推导比较复杂,对于使用者来说不需要过于纠结数学细节,只需要了解算法的创新点在哪里以及如何使用到自己的项目中就行。本文根据个人理解进行阐述,并用一个例子说明如何使用文章提出的优化器。在深度学习中,不同类型的深度网络通常需要不同的优化器,而这些优化器往往需要经过多次试验才能选定,这使得训练过程效率低下。为缓解这一问题,并持续提升各类深度网络的

2025-04-17 15:16:40 1427

原创 风车卷积-AAAI2025

本文是发表于AAAI 2025的文章,介绍了一种新的红外小目标检测方法。代码开源:https://github.com/JN-Yang/PConv-SDloss-Data近年来,基于卷积神经网络 (CNN) 的红外小目标检测方法取得了显著成果。然而,这些方法通常使用标准卷积,忽略了红外小目标像素分布的空间特征。为此,本文提出了一种新型的风车形卷积 (PConv) 模块,用于替换骨干网络底层的标准卷积。

2025-04-15 16:07:35 1331 1

原创 CNN注意力机制的进化史:深度解析10种注意力模块如何重塑卷积神经网络

从SE到SSCA,注意力机制正从"单一增强"走向"协同进化"。下一个突破点会是动态可重构的注意力吗?让我们共同见证深度学习的新篇章!

2025-04-08 23:31:22 2230 1

原创 Transformers without Normalization解读

2025年3月13日,由何凯明和Yann LeCun领衔的论文Transformers without Normalization挂载Arxiv上,大佬论文必须读一下。本文就该论文进行一个简单总结。

2025-03-17 08:53:59 1157

原创 AI作曲DiffRhythm原理及本地部署

最近AI在音乐生成方面的进展引起了极大的关注,但现有的方法面临着严重的限制。一些当前的生成模型只能合成人声或伴奏轨道。虽然一些模型可以生成组合的人声和伴奏,但它们通常依赖于精心设计的多阶段级联架构和复杂的数据管道,阻碍了可扩展性。此外,大多数系统仅限于生成短音乐片段而不是全长歌曲。此外,广泛使用的基于语言模型的方法受到推理速度慢的困扰。DiffRhythm是第一个基于潜在扩散模型的歌曲生成模型,能够在短短 10 秒内合成具有人声和伴奏的完整歌曲,持续时间长达 4m45s,保持高音乐性和可理解性。

2025-03-14 17:28:39 2020

原创 Gemma 3简介与部署

发布背景:Gemma 3 是2025年3月12日谷歌在之前发布的 Gemma AI 模型基础上的升级之作,基于 Gemini 2.0 技术打造。模型规模:提供了四种不同尺寸的模型,分别是 1B、4B、12B 和 27B,以满足不同硬件性能的需求。

2025-03-14 08:21:24 4850 1

原创 CogView4介绍和本地部署

2025年3月4日由智谱发布的全网首个支持中文生成的开源模型CogView4开源地址https://github.com/THUDM/CogView4,CogView4遵循Apache 2.0协议,是首个以此协议开放的图像生成模型,为开发者提供了更灵活的使用空间,学生党做毕设再也不用跪求版权图。

2025-03-11 08:46:40 2770 1

原创 CAMEL-AI OWL部署测试

技术原理上,OWL 通过动态智能体交互实现高效的任务自动化,强调智能体之间的协作模式和通信协议,并基于 CAMEL-AI 框架开发,大语言模型(如 OpenAI 兼容模型)作为智能体的核心能力。实测一下,还是比较费Token的,而且如果遇到网站反爬之类的还会有问题,Manus没有用过没有发言权。至少对比了openManus和OWL,感觉这个是Agent的曙光,但是真的使用,速度慢,费用较高,还有很大提升改进空间,个人觉得至少在目前,全自动可能还不太好用,人机协同会更好。文件,接入所需的 API 服务。

2025-03-10 20:51:50 2508

原创 OpenManus介绍及本地部署体验

OpenManus,由 MetaGPT 团队精心打造的开源项目,于2025年3月发布。它致力于模仿并改进 Manus 这一封闭式商业 AI Agent 的核心功能,为用户提供无需邀请码、可本地化部署的智能体解决方案。换句话说,OpenManus 就像一位全能的数字助手,能够在你的本地设备上运行,随时听候差遣,完成各种复杂任务。它的出现,打破了技术领域的高墙,让每一位开发者都有机会站在同一起跑线上,快速实现诸如代码生成、数据分析、网络信息检索等复杂任务的自动化处理。

2025-03-09 10:28:07 33016 11

原创 QWQ-32B概述与本地部署使用

2025年3月5日,阿里巴巴千问QwQ-32B,即DeepSeek之后,中国AI大模型有一次震惊世界。QwQ-32B 的运行成本显著低于 DeepSeek-R1 等模型,性能更优,成本仅为 1/10,体现了我国在被外国技术封锁的情况下进行进行自主创新的能力。QwQ 是 Qwen 系列的大模型之一,专注于 推理能力(reasoning)。

2025-03-08 10:27:32 3789

原创 YOLO12简单解读

YOLO领域太卷,2025年2月18日YOLO12来袭。由于官方发布的只是技术报告,详细细节还有待代码阅读后补上,因此只是简单解读。

2025-02-19 20:15:46 3893 1

原创 DeepSeek本地部署及其他应用接入

本文综合了网上的文章及本地自行实践踩坑的记录。

2025-02-05 13:12:43 11452 3

原创 YOLO11王者荣耀英雄状态检测

这里可以从网上下载王者荣耀游戏视频,或者本地游戏时候保存的视频,然后用视频工具或者QQ截屏截取不同的游戏画面图片后,用labelme手动标注。我这里标注了886张图片,共计6个英雄状态类别:attacked_by_tower(被塔打), death(死亡),destroy_towers(打塔), kill_heroes(杀死英雄), kill_minions_monsters(杀怪), killed(被杀),其中划分数据集如下:训练集619张,验证集177张,测试集90张。

2025-01-23 16:49:17 791

原创 GroupMamba解析及测试

GroupMamba

2024-12-27 09:23:01 1343

原创 不平衡数据集处理方式总结

假设我们有。

2024-11-24 15:19:20 2078 1

原创 Stable diffusion 3.5本地运行环境配置记录

一名古代风格的中国女学生坐在现代的计算机教室里面学习编程”安装transformer和tokenizer。Jupyter能使用Anaconda虚环境。解决:安装高于Pytorch>2.0。安装量化库节约VRAM GPUs。安装最新版本的diffuser。安装sentencepiece。根据项目需要安装其他库。

2024-11-04 09:29:10 2077

原创 nnMamba用于糖尿病视网膜病变检测测试

对比之前的几种mamba,针对糖尿病视网膜病变数据集,采用同样的训练参数:300 Epochs,32 Batch Size。这里我只是在增加了一层Residual Block提取,验证集最好的ACC是96.53%如果继续优化层的设置,应该会有更好的提升,这里就不继续做了。

2024-10-25 11:16:38 595

DataSocket技术在网络化测试中的应用

基于Labview的DataSocket编程,快速构建网络化资源,使用基于VC的快速Active控件

2010-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除