
内窥镜
文章平均质量分 87
Toky丶
在读博士生,主要研究方向为医疗机器人的视觉引导,其他例如三维计算机视觉,SLAM,深度学习啥都略懂。
展开
-
【文献阅读】V2-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endosco
深度学习可从胶囊内镜视频中预测深度图和胶囊自运动,辅助三维场景重建和病变定位。然而,胶囊内镜在胃肠道内的碰撞会导致训练数据中存在振动干扰。现有解决方案仅关注基于视觉的处理,忽略了振动等辅助信号,这些信号可减少噪声并提高性能。因此,我们提出 V²-SfMLearner,一种将振动信号集成到基于视觉的深度和胶囊运动估计中的多模态方法,适用于单目胶囊内镜。我们构建了包含振动和视觉信号的多模态胶囊内镜数据集,并且我们的人工智能解决方案开发了一种使用视觉 - 振动信号的无监督方法,通过多模态学习有效消除振动干原创 2025-05-27 20:22:01 · 838 阅读 · 0 评论 -
【文献阅读】EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery
近年来,多模态大语言模型(MLLMs)在计算机辅助诊断和决策中展现出巨大潜力。在机器人辅助手术领域,MLLMs 可作为手术培训和指导的有效工具。然而,临床应用中仍缺乏专门用于手术场景理解的 MLLMs。本文引入 EndoChat,以解决外科医生在手术场景理解中遇到的各种对话范式和子任务。为训练 EndoChat,我们通过一种新型流程构建了 Surg-396K 数据集,该流程基于收集的大规模内窥镜手术数据集,系统提取手术信息并生成结构化注释。此外,我们引入多尺度视觉令牌交互机制和基于视觉对比的推理机制原创 2025-05-27 11:11:05 · 736 阅读 · 0 评论 -
【文献阅读】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
本文提出了 Depth Anything [1],这是一种高度实用的稳健单目深度估计解决方案。我们的目标不是追求新颖的技术模块,而是构建一个简单而强大的基础模型,能够在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动标注大规模无标签数据(约 6200 万),从而扩大数据集规模,显著扩大了数据覆盖范围,进而能够降低泛化误差。我们研究了两种简单而有效的策略,使数据规模扩大具有前景。第一,利用数据增强工具创建一个更具挑战性的优化目标,这迫使模型积极寻找额外的视觉知识并获得稳健的表征。原创 2025-05-08 16:39:23 · 717 阅读 · 0 评论 -
【腹腔镜数据集】Cholec80+CholecSeg8k2020+Endoscapes2024
计算机辅助手术的发展旨在提高手术的正确性和安全性。然而,研究人员和工程师却面临着开发和训练更好算法所需的注释数据有限的问题。因此,同步定位与建图(SLAM)等基础算法的发展受到限制。基于Cholec80数据集,从Cholec80中的17个视频片段中提取了8,080个腹腔镜胆囊切除术图像帧,对图像进行注释并向公众发布。该数据集名为 CholecSeg8K。这些图像中的每一个都以十三个类别的像素级注释,这些类别通常在腹腔镜胆囊切除术中发现。原创 2025-04-24 11:39:07 · 612 阅读 · 0 评论 -
【文献阅读】General surgery vision transformer: A video pre-trained foundation model ...【GenSurgery数据集】
缺乏公开可用的数据和专门的基础模型是外科计算研究的主要障碍。为此,(i)我们开源了迄今为止最大的普通外科手术视频数据集,该数据集包含680小时的手术视频,涵盖28种手术的机器人和腹腔镜技术数据;(ii)我们提出了一种基于前向视频预测在手术视频上对普通外科视觉Transformer(GSViT)进行视频预训练的技术,该技术可用于实时手术应用,我们还开源了GSViT的代码和权重;(iii)我们还发布了针对10种手术的GSViT特定手术微调版本的代码和权重;(iv)我们在Cholec80阶段注释任务中展示了GSV原创 2025-04-24 11:30:00 · 829 阅读 · 0 评论 -
【文献阅读】AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical..【AutoLaparo数据集】
计算机辅助微创手术在造福现代手术室方面具有巨大潜力。内窥镜传输的视频数据提供了丰富的信息,为下一代智能手术系统的情境感知提供支持。为了在手术过程中实现精确感知和自动操作,基于学习的技术是一种很有前途的方法,近年来它能够实现先进的图像分析和场景理解。然而,学习这类模型高度依赖大规模、高质量和多任务标注的数据。目前,这是该领域的一个瓶颈,因为在计算机辅助干预(CAI)领域,可用的公共数据集仍然极为有限。在本文中,我们提出并发布了首个集成数据集(名为AutoLaparo),该数据集包含多个基于图像的感知任原创 2025-04-22 10:58:09 · 895 阅读 · 0 评论 -
【文献阅读】Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video
从单目手术视频重建3D场景可以增强外科医生的感知,因此在各种计算机辅助手术任务中起着至关重要的作用。然而,由于内镜视频存在诸如动态变形和无纹理表面等固有问题,实现尺度一致的重建仍然是一个未解决的挑战。尽管最近取得了一些进展,但目前的方法要么依赖校准或器械先验来估计尺度,要么采用类似结构从运动(Structure-from-Motion,SfM)的多阶段流程,这会导致误差积累并且需要离线优化。在本文中,我们提出了Endo3R,这是一个统一的3D基础模型,用于从单目手术视频进行在线尺度一致的重建,无需任何先原创 2025-04-21 15:04:19 · 581 阅读 · 0 评论 -
【文献阅读】EndoNet A Deep Architecture for Recognition Tasks on Laparoscopic Videos (Cholec80数据集)
手术流程识别在医学领域有诸多潜在应用,如手术视频数据库的自动索引以及实时手术室排班的优化等。因此,手术阶段识别已在多种手术场景下展开研究,包括白内障手术、神经外科手术和腹腔镜手术。在相关文献中,执行该任务通常使用两种类型的特征:视觉特征和工具使用信号。然而,所使用的视觉特征大多是手工制作的。此外,工具使用信号通常通过手动标注过程或使用额外设备收集。在本文中,我们提出了一种用于阶段识别的新方法,该方法利用卷积神经网络(CNN)从胆囊切除术视频中自动学习特征,并且仅依赖视觉信息。在先前的研究中,已经表明工具使用原创 2025-04-20 21:58:14 · 1110 阅读 · 0 评论 -
【报告】内镜视频图像分析Foundation Model
无原创 2025-04-01 17:27:46 · 151 阅读 · 0 评论 -
【文献阅读】Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train
基础模型在疾病诊断、文本报告生成等各种应用中取得了显著成功。然而,目前仍缺乏用于内窥镜视频分析的基础模型。在本文中,我们提出了Endo-FM,这是一种专门利用大量内窥镜视频数据开发的基础模型。首先,我们构建了一个视频变换器,它能够捕捉跨空间和时间维度的局部和全局长程依赖关系。其次,我们通过自监督的方式,利用全局和局部视图对变换器模型进行预训练,旨在使其对时空变化具有鲁棒性,并在不同场景下具有判别力。原创 2025-04-01 14:20:39 · 766 阅读 · 0 评论 -
【文献阅读】LDPolypVideo Benchmark: A Large-Scale Colonoscopy Video Dataset of Diverse Polyps
LDPolypVideo数据集的发表于2021 MICCAILDPolypVideo基准:一个大规模的包含多种息肉的结肠镜检查视频数据集摘要用于息肉检测的计算机辅助诊断(CAD)系统为结直肠癌的筛查和预防提供了重要支持。近年来,深度学习技术在医学图像计算和计算机辅助诊断领域取得了突破性进展。然而,训练数据的不足严重阻碍了息肉检测技术的发展。原创 2025-04-01 11:04:27 · 965 阅读 · 0 评论 -
【文献阅读】The Dresden Surgical Anatomy Dataset for Abdominal Organ Segmentation in Surgical Data Science
每张图像最终只分割一个特定的解剖结构(例如,在1374张结肠图像中,每张图像都对结肠进行了逐像素注释)。所有纳入的患者都有手术的临床指征。基于32例机器人辅助直肠切除术或切除术的视频数据,这个数据集提供了总共13195张经过大量注释的腹腔镜图像,展示了不同的腹腔内器官(结肠、肝脏、胰腺、小肠、脾脏、胃、输尿管、精囊腺)和解剖结构(腹壁、肠系膜下动脉、肠静脉)。为了真实呈现常见的腹腔镜手术障碍,它包含了不同程度的器官可见性,包括小的或部分被遮挡的器官部分、运动伪影、不均匀的照明以及视野中的烟雾或血液。原创 2025-03-31 21:50:54 · 893 阅读 · 0 评论 -
【文献阅读】SurgiSAM2: Fine-tuning a foundational model for surgical video anatomy segmentation and detect
SAM 2 是 Meta 公司发布的 Segment Anything Model 2 的简称。SAM 2 是一种先进的图像和视频分割模型,是 SAM 的升级版本。其具有以下特点:SAM 2 的这些特性使其成为计算机视觉领域的重要进展,为图像和视频处理提供了强大的工具,在自动驾驶、医学影像分析、影视后期制作等多个领域都有广泛的应用前景。背景:基础分割模型,如分割一切模型(Segmenting Anything Model,SAM)和SAM 2,通过在不同领域实现卓越的零样本性能,改变了分割技术的格局。在本研原创 2025-03-31 21:17:56 · 863 阅读 · 0 评论 -
【文献阅读】Foundation models in gastrointestinal endoscopic AI: Impact of architecture, pre-training appr
利用自然图像的大型数据集(如ImageNet)对深度学习模型进行预训练,已成为内窥镜图像分析的标准做法。由于高质量医学图像和标签的稀缺性,这种方法通常优于从头开始训练。然而,目前尚不清楚在自然图像上学习到的特征是否为下游医学内窥镜成像任务提供了最佳起点。直观地说,使用与目标领域更接近的图像进行预训练可能会导致更合适的特征表示。本研究评估了在胃肠道内窥镜图像分析中,利用领域内预训练与在自然图像上进行预训练相比是否具有潜在优势。为此,我们展示了一个包含来自八个不同医疗中心的5,0原创 2025-03-31 18:28:55 · 642 阅读 · 0 评论