
视觉与图像处理
文章平均质量分 83
Toky丶
在读博士生,主要研究方向为医疗机器人的视觉引导,其他例如三维计算机视觉,SLAM,深度学习啥都略懂。
展开
-
【文献阅读】V2-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endosco
深度学习可从胶囊内镜视频中预测深度图和胶囊自运动,辅助三维场景重建和病变定位。然而,胶囊内镜在胃肠道内的碰撞会导致训练数据中存在振动干扰。现有解决方案仅关注基于视觉的处理,忽略了振动等辅助信号,这些信号可减少噪声并提高性能。因此,我们提出 V²-SfMLearner,一种将振动信号集成到基于视觉的深度和胶囊运动估计中的多模态方法,适用于单目胶囊内镜。我们构建了包含振动和视觉信号的多模态胶囊内镜数据集,并且我们的人工智能解决方案开发了一种使用视觉 - 振动信号的无监督方法,通过多模态学习有效消除振动干原创 2025-05-27 20:22:01 · 838 阅读 · 0 评论 -
【文献阅读】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
本文提出了 Depth Anything [1],这是一种高度实用的稳健单目深度估计解决方案。我们的目标不是追求新颖的技术模块,而是构建一个简单而强大的基础模型,能够在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动标注大规模无标签数据(约 6200 万),从而扩大数据集规模,显著扩大了数据覆盖范围,进而能够降低泛化误差。我们研究了两种简单而有效的策略,使数据规模扩大具有前景。第一,利用数据增强工具创建一个更具挑战性的优化目标,这迫使模型积极寻找额外的视觉知识并获得稳健的表征。原创 2025-05-08 16:39:23 · 717 阅读 · 0 评论 -
【文献阅读】General surgery vision transformer: A video pre-trained foundation model ...【GenSurgery数据集】
缺乏公开可用的数据和专门的基础模型是外科计算研究的主要障碍。为此,(i)我们开源了迄今为止最大的普通外科手术视频数据集,该数据集包含680小时的手术视频,涵盖28种手术的机器人和腹腔镜技术数据;(ii)我们提出了一种基于前向视频预测在手术视频上对普通外科视觉Transformer(GSViT)进行视频预训练的技术,该技术可用于实时手术应用,我们还开源了GSViT的代码和权重;(iii)我们还发布了针对10种手术的GSViT特定手术微调版本的代码和权重;(iv)我们在Cholec80阶段注释任务中展示了GSV原创 2025-04-24 11:30:00 · 829 阅读 · 0 评论 -
【文献阅读】AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical..【AutoLaparo数据集】
计算机辅助微创手术在造福现代手术室方面具有巨大潜力。内窥镜传输的视频数据提供了丰富的信息,为下一代智能手术系统的情境感知提供支持。为了在手术过程中实现精确感知和自动操作,基于学习的技术是一种很有前途的方法,近年来它能够实现先进的图像分析和场景理解。然而,学习这类模型高度依赖大规模、高质量和多任务标注的数据。目前,这是该领域的一个瓶颈,因为在计算机辅助干预(CAI)领域,可用的公共数据集仍然极为有限。在本文中,我们提出并发布了首个集成数据集(名为AutoLaparo),该数据集包含多个基于图像的感知任原创 2025-04-22 10:58:09 · 895 阅读 · 0 评论 -
【文献阅读】Vision-Language Models for Vision Tasks: A Survey
发表于2024年2月TPAMI大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖标注数据,并且通常为每个单一视觉识别任务训练一个DNN,这导致了一种费力且耗时的视觉识别范式。为应对这两个挑战,视觉语言模型(VLM)最近受到了广泛研究,它从互联网上几乎无限可用的网络规模图像文本对中学习丰富的视觉语言相关性,并能够使用单个VLM对各种视觉识别任务进行零样本预测。本文对用于各种视觉识别任务的视觉语言模型进行了系统综述,包括:(1)介绍视觉识别范式发展的背景;(2)VLM的基础,总结广泛采用的网络架构、预训练原创 2025-04-01 21:18:39 · 897 阅读 · 0 评论 -
【报告】内镜视频图像分析Foundation Model
无原创 2025-04-01 17:27:46 · 151 阅读 · 0 评论 -
【文献阅读】Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train
基础模型在疾病诊断、文本报告生成等各种应用中取得了显著成功。然而,目前仍缺乏用于内窥镜视频分析的基础模型。在本文中,我们提出了Endo-FM,这是一种专门利用大量内窥镜视频数据开发的基础模型。首先,我们构建了一个视频变换器,它能够捕捉跨空间和时间维度的局部和全局长程依赖关系。其次,我们通过自监督的方式,利用全局和局部视图对变换器模型进行预训练,旨在使其对时空变化具有鲁棒性,并在不同场景下具有判别力。原创 2025-04-01 14:20:39 · 766 阅读 · 0 评论 -
【文献阅读】LDPolypVideo Benchmark: A Large-Scale Colonoscopy Video Dataset of Diverse Polyps
LDPolypVideo数据集的发表于2021 MICCAILDPolypVideo基准:一个大规模的包含多种息肉的结肠镜检查视频数据集摘要用于息肉检测的计算机辅助诊断(CAD)系统为结直肠癌的筛查和预防提供了重要支持。近年来,深度学习技术在医学图像计算和计算机辅助诊断领域取得了突破性进展。然而,训练数据的不足严重阻碍了息肉检测技术的发展。原创 2025-04-01 11:04:27 · 965 阅读 · 0 评论 -
【文献阅读】SurgiSAM2: Fine-tuning a foundational model for surgical video anatomy segmentation and detect
SAM 2 是 Meta 公司发布的 Segment Anything Model 2 的简称。SAM 2 是一种先进的图像和视频分割模型,是 SAM 的升级版本。其具有以下特点:SAM 2 的这些特性使其成为计算机视觉领域的重要进展,为图像和视频处理提供了强大的工具,在自动驾驶、医学影像分析、影视后期制作等多个领域都有广泛的应用前景。背景:基础分割模型,如分割一切模型(Segmenting Anything Model,SAM)和SAM 2,通过在不同领域实现卓越的零样本性能,改变了分割技术的格局。在本研原创 2025-03-31 21:17:56 · 863 阅读 · 0 评论 -
【文献阅读】Foundation models in gastrointestinal endoscopic AI: Impact of architecture, pre-training appr
利用自然图像的大型数据集(如ImageNet)对深度学习模型进行预训练,已成为内窥镜图像分析的标准做法。由于高质量医学图像和标签的稀缺性,这种方法通常优于从头开始训练。然而,目前尚不清楚在自然图像上学习到的特征是否为下游医学内窥镜成像任务提供了最佳起点。直观地说,使用与目标领域更接近的图像进行预训练可能会导致更合适的特征表示。本研究评估了在胃肠道内窥镜图像分析中,利用领域内预训练与在自然图像上进行预训练相比是否具有潜在优势。为此,我们展示了一个包含来自八个不同医疗中心的5,0原创 2025-03-31 18:28:55 · 642 阅读 · 0 评论 -
octomap, slam, 路径规划: 如何协同工作?
octomap, slam, path planning: how does it all fit together?原文链接:octomap, slam, path planning: how does it all fit together? - ROS Answers: Open Source Q&A Forumhttps://answers.ros.org/question/221092/octomap-slam-path-planning-how-does-it-all-fit-t原创 2021-09-15 14:53:10 · 1802 阅读 · 0 评论 -
linux下Pangolin库安装时出现关于python的问题
问题描述在学习视觉slam14讲时书上的实例用到了这个库,按理来说很多博客都说直接按照cmake那一套就行,顺便会安装很多依赖库,大概类似于这样别的博客的配置方法然而我在安装之后报错说python找不到,原因:我新安装的Ubuntu虚拟机,所以python环境没有编译安装。解决办法安装python3.X版本(下载压缩包编译安装)安装python2.7版本(下载压缩包编译安装)第三个坑貌似是这个下载的源码里面这个是空的所以还是一样的套娃去把这个库的...原创 2021-09-01 16:15:12 · 1005 阅读 · 0 评论 -
Windows 10 下MRPT +VS2019踩坑之路
捣鼓了两天了,经历了cmake的无数摧残,无数次配置系统的环境变量,先后安装了QT5,PCL库,wxWidgets以及各种不知名的其他玩意VS在最后编译时还是会各种毛病...已处于崩溃边缘。(希望你们不要跟我一样走这条路,相信我真的不好走...自己编译是真的有太太太多坑了,特别是这个mrpt,不会像opencv那样容易)最后还是自己摸索出,直接用安装好的那个mrpt目录(注意,这里的安装目录就是在官网上,下载那个windows版本的安装包,就像装软件一样,在安装过程中不是有个add path in原创 2021-07-29 16:43:09 · 750 阅读 · 2 评论 -
二元多项式插值拟合(泰勒展开)
在手写SIFT算法代码时,涉及关键点的精确定位,基本思想就是将高斯差分空间中提取出的极值点进行一个曲面的拟合,网上参考一个博主的代码:https://blog.csdn.net/qq_25847123/article/details/79148333不过是matlab版的,改写成python并将有些地方做了修改。1 效果最终的效果图如下:拟合效果2 代码import numpy as npimport mathimport matplotlib.pyplot as .原创 2021-04-20 16:47:22 · 2949 阅读 · 0 评论 -
图像处理作业(四)
题目1. 以lena图像为例,编程实现小波域维纳滤波(具体算法见十二讲ppt)小波变换可以使用matlab自带的dwt2.基于小波的维纳滤波算法原理假设图像的观测模型,满足最大后验概率模型,即求解在维纳滤波中和都满足高斯分布。而模型中方差的估计由如下式子给出:算法步骤Step1:首先需要对原始图像进行高斯噪声的叠加,得到一张带有噪声的图像,再调用编写的wienerFilter函数进行维纳滤波的处理。Step2:在主要的wienerFilter函数中,首先使用m...原创 2020-12-31 11:14:38 · 1337 阅读 · 1 评论 -
图像处理作业(三)
题目描述:编一个程序实现如下功能:读入指纹图像,进行形态学骨架提取和基于距离变换的骨架提取,并实现剪裁算法。1. 读入一幅指纹图像;(1)代码% 读取图片clc;clear;I=imread('figureprint.png');imshow(I)(2)效果图1 读取指纹图像2. 对图像进行二值化(方法自定,可以是阈值法);(1)代码%对图像进行二值化(方法自定,可以是阈值法);thresh = graythresh(I); %自动..原创 2020-12-31 10:54:04 · 3117 阅读 · 7 评论 -
图像处理作业(二)
问题 1 通过计算一维傅里叶变换实现图像二维快速傅里叶变换(10 分)实现一个函数F=dft2D(f),其中f是一个灰度源图像,F是其对应的二维快速傅里叶变换(FFT)图像.具体实现要求按照课上的介绍通过两轮一维傅里叶变换实现。也就是首先计算源图像每一行的一维傅里叶变换,然后对于得到的结果计算其每一列的一维傅里叶变换。如果实现采用MATLAB,可以直接调用函数fft计算一维傅里叶变换。如果采用其他语言,请选择并直接调用相应的一维傅里叶变换函数。(1)思路首先计算源图像每一行的一维傅里叶变换,原创 2020-10-27 10:45:05 · 4933 阅读 · 16 评论 -
图像处理作业(一)
问题 1 黑白图像灰度扫描实现一个函数 s = scanLine4e(f, I, loc), 其中 f是一个灰度图像,I 是一个整数,loc 是一个字 符串。当 loc 为’row’时,I 代表行数。当 loc 为’column’时,I 代表列数。输出 s 是对应的相 关行或者列的像素灰度矢量。调用该函数,提取 cameraman.tif 和 einstein.tif 的中心行和中心列的像素灰度矢量并将扫描 得到的灰度序列绘制成图。1. 程序①scanLine4e(f, I, loc)函数原创 2020-10-05 16:59:41 · 9798 阅读 · 9 评论 -
opencv 4.x版本关于SURF关键点匹配代码
值得注意的是,在opencv4.x版本中,引入SurfDescriptorExtractor 等构建不再使用nofree/nofree.cpp,而是#include "opencv2/xfeatures2d/nonfree.hpp"#include "opencv2/xfeatures2d.hpp"在构建detector和extractor使用的是SURF::create()方法,具体代码在opencv4.3.0版本上跑通,如下:#include "opencv2/core/core.h..原创 2020-07-08 10:52:33 · 4022 阅读 · 12 评论 -
C,opencv批量从文件夹下读取图片进行处理,并批量保存
1 批量读取glob 在opencv4.x版本中提供的是glob函数,在以前的版本中可使用Directory类。int main() { //批量读取 string src_path = "E:\\Toky\\VsProject\\ColoNavigation\\ColoNavi_Opencv\\ColoNavi_Opencv\\data\\"; vector<cv::String> file_vec; glob(src_path + "...原创 2020-07-06 10:48:41 · 1647 阅读 · 0 评论 -
解决高版本opencv4.3 关于基本数据类型cvPoint、CvScalar的报错
未定义标识符cvPoint!!!!CvScalar,找了半天估计是版本不兼容,换了包含的头文件了,找了好多都是好几年前的代码。如图,或者是直接#include "opencv.h"的都还有..作为一个今天才配好VS2019+Opencv4.3+Opencv-Contrib+Cmake的人来说测试段代码太难了!言归正传,可以看看这个官网的文档(不是别的地方的,比如这个w3cschool的也有点问题)链接:https://www.w3cschool.cn/search?w=Cv...原创 2020-07-03 16:07:45 · 8393 阅读 · 13 评论