Shuai@-CSDN博客

原创 AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Sys

贡献：1）构建了 AgiBot World 数据集，这是一个功能丰富的机器人学习数据集，并配备了开源工具，旨在推动大规模策略学习的研究。作为一项开创性的举措，AgiBot World 采用了一套全面优化的流程，涵盖场景配置、任务设计、数据收集到人机验证，确保了无与伦比的数据质量。2）提出了 GO-1 策略，这是一个基于潜在动作表示的机器人基础策略，用于解锁基于异构数据的网络规模预训练。

2025-06-12 13:50:28 64

原创 RetiZero

RetiZero 独特地整合了基于 MAE 的骨干网络与 CLIP 风格的对比框架，并采用基于不确定性的特征校准，以实现在超过 400 种眼底疾病类别中的稳健图像-文本对齐。

2025-06-09 13:19:48 180

原创 AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

问题：CLIP文本编码将异常文本和正常文本的特征放置的比较近。目标：将异常文本特征和异常文本特征距离推远点。

2025-06-04 11:00:05 262

原创一项基于LLM的医学代理的调查：我们离Baymax有多远？

大型语言模型（LLM）通过开发基于LLM的代理商可以理解，推理和协助医疗任务来改变医疗保健。这项调查提供了对基于LLM的医学代理商的全面审查，研究了其体系结构，应用和挑战。我们分析了医疗代理系统的关键组成部分，包括系统概况，临床计划机制，医疗推理框架和外部能力增强。该调查涵盖了主要的应用程序方案，例如临床决策支持，医疗文献，培训模拟和医疗服务优化。我们讨论用于评估这些代理在医疗保健环境中表现的评估框架和指标。

2025-05-28 23:02:59 778

原创 ResAD: A Simple Framework for Class Generalizable Anomaly Detection

构建与类别无关的特征。

2025-04-28 16:05:58 190

原创 EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

2024-12-31 11:21:14 435

原创 Feature Consistency Learning for Anomaly Detection

CutPaste [26] 通过裁剪、旋转和变换正常图像来合成缺陷样本，减少了算法对缺陷样本的依赖，取得了令人满意的效果。Lei 等人 [27] 提出了一种金字塔式的规范化流程，该流程使用体积规范化来保留携带任务相关先验的体积映射，将缺陷建模为与模板的异常偏差，并实现了具有竞争力的定位性能。Batzner 等人 [9] 在工业场景中引入了一种无监督异常检测方法，与以前的方法相比，在图像级检测精度和检测效率方面都取得了重大进展。然而，在像素级异常定位任务中仍然存在严峻的挑战需要解决。

2024-12-30 10:54:10 767

原创 Segment anything in medical images

发表在Nature Communications。

2024-12-26 11:13:59 219

原创 SAM-FNet: SAM-Guided Fusion Network for Laryngo-Pharyngeal Tumor Detection

感觉效果提升不一定是motivation中的全局和局部效果的结合我的理解。

2024-12-26 10:52:20 275

原创 Compositional Oil Spill Detection Based on Object Detector and Adapted Segment Anything Model

由于 HQ-SAM 的简单性和训练效率，我们将 HQ-SAM 中的适配器模块集成到 SAM-OIL 中，从而将 SAM 的分割能力转移到漏油检测任务。HQ-SAM 最初是为了提高 SAM 对自然图像中复杂结构的分割精度而开发的，而本研究中使用的 HQ-SAM 旨在提高 SAM 对 SAR 图像中模糊边界的分割能力。• 实验结果表明，SAM-OIL 实现了 69.52% 的 mIoU，超越了现有的漏油检测方法，并且 OMF 和适配器都可以有效提高 SAM-OIL 的准确性。的组合形成新的解码器。

2024-12-23 17:07:10 1036

原创 Contextual Affinity Distillation for Image Anomaly Detection

虽然在这种异常上实现了显着的高检测性能，但他们面临着违反长距离依赖关系的“逻辑”类型的异常，例如放置在错误位置的正常对象。注意到编码器-解码器范式下的逆蒸馏方法可以从高抽象级别的知识中学习，我们建议使用两个学生（本地和全局）来更好地模仿老师在逆蒸馏中的本地和全局行为。先前研究中使用的本地学生主要关注准确的局部特征学习，而全局学生则关注学习全局相关性。实验结果表明，所提出的方法无需使用复杂的训练技术，就在 MVTec LOCO AD 数据集上创下了新的最佳性能。

2024-12-07 20:16:34 290

原创 DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly Detection

视觉异常检测是计算机视觉领域的一个重要问题，通常被表述为单类分类和分割任务。学生-老师 (S-T) 框架已被证明能够有效解决这一挑战。然而，之前基于 S-T 的研究仅凭经验对正常数据施加约束并融合多层信息。在本研究中，我们提出了一种改进的模型，称为 DeSTSeg，它将预先训练的教师网络、去噪学生编码器-解码器和分割网络集成到一个框架中。首先，为了加强对异常数据的约束，我们引入了一个去噪程序，使学生网络能够学习更稳健的表示。从合成损坏的正常图像中，我们训练学生网络以匹配相同图像的教师网络特征而不会损坏。

2024-11-26 10:18:27 1104 1

原创阅读 ADiffusion-Based Framework for Multi-Class Anomaly Detection

基于重建的方法在异常检测方面取得了显著成果。最近流行的扩散模型的卓越图像重建能力引发了研究努力，以利用它们来增强异常图像的重建。问题）尽管如此，这些方法可能会面临与更实际的多类设置中图像类别和像素结构完整性的保存相关的挑战。为了解决上述问题，我们提出了一种基于扩散的异常检测Difusion-based Anomaly Detection (DiAD) 框架，用于多类异常检测，该框架由像素空间自动编码器、与稳定扩散去噪网络连接的潜在空间语义引导 (SG) 网络和特征空间预训练特征提取器组成。

2024-11-22 16:24:40 1055

原创论文阅读 SimpleNet: A Simple Network for Image Anomaly Detection and Localization

摘要：该论文提出了一个简单且应用友好的网络（称为 SimpleNet）来检测和定位异常。SimpleNet 由四个组件组成：（1）一个预先训练的特征提取器，用于生成局部特征；（2）一个浅层特征适配器，用于将局部特征传输到目标域；（3）一个简单的异常特征生成器，通过向正常特征添加高斯噪声来伪造异常特征；（4）一个二元异常鉴别器，用于区分异常特征和正常特征。在推理过程中，异常特征生成器将被丢弃。我们的方法基于三个原则。首先，将预训练的特征转换为面向目标的特征有助于避免领域偏差。

2024-11-20 22:27:11 1085 1

原创 SCI论文画图配色链接收藏

https://zhuanlan.zhihu.com/p/670396774

2024-11-14 22:17:12 326

原创论文阅读 Advancing Pre-trained Teacher: Towards Robust Feature Discrepancy for Anomaly Detection

该论文的大致思路还可以理解，但是深度到技术层面就不是很好理解了，最好是细节能够图对应，（我对该领域没有那么熟悉，所以还是希望作者能写详细点）。我初步理解的是，在特征级别放大异常区域的特征数值，然后在进行反向蒸馏对样本进行恢复。

2024-11-14 11:29:05 166 1

原创青光眼数据统计

参考文献：

2024-11-11 14:41:49 413

原创 segmentation_pytorch库需要用huggingface，但是国内无法访问时，使用离线的方式

使用这种方式FPN(encoder=maxvit_small_tf_224(pretrained_cfg_overlay=dict(file=cached_safe_file),features_only=True,pretrained=False),读取bin文件。下面这种方式也可以，读取model.safetensors。

2024-11-07 20:20:22 353

原创 nnunet 直接预测的结果是nni.gz格式的数据而不是概率值，解决办法

在训练时已经处理好的数据标注npz数据 nnUNet_raw_data_base/nnUNet_cropped_data/Task500_MRSeg。在nnunet有已经裁剪好的npz数据的GT，我们预测输出NPZ数据的预测pred，这两个都是相同尺寸的GT和pred，用于计算ROC,目标，因为我需要计算ROC曲线，需要nnunet输出的概率值，我又不想进行数据恢复，我将如下两个文件夹的数据用于ROC曲线的计算，nnunet predict 时加上–npz就会在输出目录中多生成.npz文件和pkl文件。

2024-11-06 16:14:50 425

原创简读Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection

理解的创新：将中间的连续空间变换，换成了离散的信息传递，或者将单一的离散传递变成了多个层级的信息传递。其中不太理解的是其中的最优传输POT的意义？

2024-10-28 17:19:32 313

原创论文简读Multi-scale feature reconstruction network for industrial anomaly detection

思路在于训练阶段输入正常样本，图中的Masked Vision encoder 通过掩码训练重建出 ResNet的多阶段输出，然而在测试阶段Masked Vision encoder 输出正常的重建特征，而ResNet的输出会有缺陷存在。通过这样方式进行定位异常。

2024-10-28 11:23:12 300

原创 nnUNet中断训练 --c

在训练的程序后面加上 --c，就会从断点处进一步训练。

2024-09-23 17:54:02 421 1

原创使用dcm数据训练nnunet

nnunet训练3D数据

2024-09-13 20:25:04 541 1

原创 2024年9月北京docker安装+nvidia-docker

docker安装

2024-09-13 17:18:14 641

原创 nnunet报错 the direction does not match between the images

找到检查对齐的代码，然后使用这段代码来验证原图和标注，来排除问题。我们对原图和标注进行对齐操作就能解决问题。

2024-09-12 16:29:01 444

原创 VisionFM

尽管令人印象深刻，RETFound 仍然受到其可处理的眼科模式数量（即仅限眼底照相和光学相干断层扫描 (OCT)）以及其擅长的临床任务范围（即主要是眼部疾病的诊断和预后以及全身性疾病的预测）的限制。最近，GPT-417 和 SAM18 等 AI 基础模型 (FM) 应运而生，并有可能改变许多研究和工业领域 19, 20。FM 是使用广泛数据训练的模型，,从而为以更高效、适应性更强和可扩展的解决方案应对日益增长的全球眼科挑战提供新的机会 21。

2024-08-13 19:55:09 742