计算机视觉图像处理
文章平均质量分 92
X_Student737
这个作者很懒,什么都没留下…
展开
-
Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields
Tri-MipRF是ICCV2023年的Oral和Best Paper Finalist,研究单位是字节跳动、清华大学和中国科学院计算技术研究所,文章主要思想是,将Mip-NeRF和Tri-plane进行结合,能够实现神经辐射场的快速重建,以及抗锯齿、高保真的实时渲染。原创 2023-12-28 16:41:48 · 1340 阅读 · 6 评论 -
TensoRF: Tensorial Radiance Fields
TensoRF是第一个从张量的角度来看待辐射场建模,并提出了辐射场重建作为一个低秩张量重建的问题,整体思路非常巧妙,而且数学原理丰富,理论扎实。美中不足在于代码里的工程trick较多,特别是涉及到alpha mask的更新和体素上采样,细节非常复杂,还是不够简洁优美。从实验效果来看,TensoRF的渲染效果其实并不算特别惊艳,但确实是大幅减少了NeRF的训练时间,并且降低了渲染所需要的显存,总体而言是令人眼前一亮的工作。原创 2023-12-05 17:04:36 · 1609 阅读 · 0 评论 -
Vision Transformer原理分析
Vision Transformer是2021年Google团队提出的将Transformer应用在图像分类的模型,因为其模型简单、效果好、可扩展性强,成为CV领域的里程碑著作,也引爆了后续相关研究。原创 2023-06-25 00:26:36 · 534 阅读 · 0 评论 -
Kinect Fusion三维重建
KinectFusion三维重建原创 2023-02-25 22:47:24 · 1086 阅读 · 2 评论 -
双目立体匹配_StereoNet网络
传统立体匹配算法通常选取立体校正后的左视图作为参考图像,通过在目标图像上进行行搜索寻找同名点并计算视差,将每个像素的视差进行保存,得到单通道的视差图。距离相机越近的空间点,在视差图中灰度值越大。传统立体匹配算法将双目立体匹配问题转化寻找最小化能量函数的图D问题,此处的D可以时深度图或视差图,因此在深度学习领域立体匹配又被成为视差估计、深度估计。原创 2022-11-07 20:06:31 · 5714 阅读 · 13 评论 -
双目立体匹配_DispNet网络
双目立体匹配原创 2022-10-12 21:26:56 · 2831 阅读 · 2 评论 -
双目立体匹配_SGM算法
双目立体匹配原创 2022-10-10 19:59:11 · 3128 阅读 · 1 评论 -
ubuntu环境配置
ubuntu环境配置原创 2022-09-19 15:50:50 · 2299 阅读 · 0 评论 -
3D视觉(六):PnP问题(pespective-n-point)
3D视觉(六):PnP问题(pespective-n-point)PnP问题,是指已知3D点(x, y, z)及其在相机上的投影(u,v),求相机位姿变换R、T。投影方程可表示为:这里K为相机内参矩阵,是已知的。我们要做的就是,从n对这样的2D-3D对应关系中,恢复出相机姿态变换,即旋转矩阵R和平移向量t。文章目录3D视觉(六):PnP问题(pespective-n-point)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:原创 2021-12-28 10:28:37 · 10440 阅读 · 0 评论 -
3D视觉(五):对极几何和三角测量
3D视觉(五):对极几何和三角测量对极几何(Epipolar Geometry)描述的是两幅视图之间的内在射影关系,与外部场景无关,只依赖于摄像机内参数和这两幅试图之间的的相对姿态。文章目录3D视觉(五):对极几何和三角测量一、对极几何二、三角测量三、实验过程四、源码五、项目链接一、对极几何假设我们从两张图像中得到了一对配对好的点对,如果有若干对这样的匹配点对,就可以通过这些二维图像点的对应关系,恢复出在两帧之间的摄像机的运动。从代数角度来分析这里的几何关系。在第1帧的坐标系下,设P的空间位置为原创 2021-12-15 11:08:39 · 4434 阅读 · 3 评论 -
3D视觉(四):ORB特征提取与匹配
3D视觉(四):ORB特征提取与匹配提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录3D视觉(四):ORB特征提取与匹配前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础原创 2021-12-13 16:30:00 · 5428 阅读 · 0 评论 -
3D视觉(三):双目摄像头的标定与校正
3D视觉(三):双目摄像头的标定与校正对于双目摄像头而言,除了需要分别标定左目摄像头的内参矩阵K1、畸变系数D1、右目摄像头的内参矩阵K2、畸变系数D2,还需要标定左右目对应的旋转矩阵R和平移向量T。当双目摄像头固定在一个平面上时,旋转矩阵R可近似为一个单位阵,平移向量T的欧式范数即为基线长度b。我们可以把两个相机都看作针孔相机,它们是水平放置的,意味着两个相机的光圈中心都位于x轴上,两者之间的距离称为双目相机的基线b,它是双目相机的重要参数。通过粗略测量可看出,这里基线b的长度在0.06m-0.07原创 2021-12-10 15:58:05 · 38159 阅读 · 32 评论 -
3D视觉(二):单目摄像头的标定与校正
3D视觉(二):单目摄像头的标定与校正文章目录3D视觉(二):单目摄像头的标定与校正1、相机模型一、机器车坐标系到相机坐标系二、相机坐标系到归一化平面坐标系三、归一化平面坐标畸变四、归一化平面坐标系到像素坐标系2、单目摄像头标定3、实验结果4、源码1.引入库2.读入数据总结相机将三维世界中的坐标点(单位为米)映射到二维图像平面(单位为像素),这个过程可用针孔相机模型和透镜畸变模型来刻画。这两个模型能够把外部的三维点投影到相机内部成像平面,构成相机的内参数。1、相机模型假设存在一个机器小车,以小车原创 2021-12-08 10:10:22 · 9353 阅读 · 1 评论 -
3D视觉(一):双目摄像头的调用
3D视觉(一):双目摄像头的调用文章目录3D视觉(一):双目摄像头的调用1、计时器 chrono2、单目摄像头的调用3、双目摄像头的调用参考1、计时器 chronochrono是C++11新加入的方便时间日期操作的标准库,它既是相应的头文件名称,也是std命名空间下的一个子命名空间,所有时间日期相关定义均在std::chrono命名空间下。通过这个新的标准库,可以非常方便进行时间日期相关操作。#include <iostream>#include<unistd.h> #原创 2021-12-07 11:05:43 · 2426 阅读 · 0 评论 -
深度学习卷积神经网络从入门到精通
深度学习卷积神经网络从入门到精通—阅读笔记计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。人们致力于建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。文章目录深度学习卷积神经网络从入门到精通---阅读笔记第一章:概述第二章:预备知识第三章-第七章:图片分类模型第八章:目标检测模型第九章:语义分割模型第十章:特殊卷积神经网络模型第一章:概原创 2021-09-10 17:59:43 · 1460 阅读 · 0 评论 -
STN_空间变换网络
STN_空间变换网络深度卷积网络虽然已经在很多领域取得了较好的效果,但这些模型依旧十分脆弱。例如,对一幅图像进行平移、旋转和缩放等操作后,会使原有的模型识别准确度下降。这种现象可以理解为深度卷积网络的一个通病,一般可以从两方面入手:一是样本多样性,数据增强,进行更多的变换,令模型见多识广,可以处理各种角度的图片。二是样本预处理,一般会采用仿射变换对现有的图片进行修正,令后面的卷积网络专门负责处理调整后的标准图片,使模型训练起来更容易。空间变换网络(Saptial Transformer Networ原创 2021-08-23 17:16:34 · 3909 阅读 · 3 评论 -
OCR_文字识别
OCR_文字识别OCR(Optical Character Recognition),指通过光学技术对字符进行识别。1929年,德国科学家Tausheck首先提出了OCR,并为此申请了专利。这种技术直到计算机诞生之后才变成了现实,通过光学技术对字符进行扫描、识别,最后转化为计算机的内编码。文章目录OCR_文字识别一、随机生成模拟数据集二、多尺度输出网络三、训练过程四、深入思考五、源码六、相关链接一、随机生成模拟数据集常用的验证码生成库有captcha和gvcode。captcha库支持文字验证码和语原创 2021-08-18 20:42:19 · 805 阅读 · 0 评论 -
PSPNet :语义分割
PSPNet:语义分割随着卷积神经网络在目标检测任务上的推进,它也开始被用于更精细的图像处理任务:语义分割和实例分割。目标检测只需要预测图像中每个对象的位置和类别,语义分割还要把每个像素都进行分类,而实例分割的任务则更难,要进一步把每个对象的不同实例都区分开。图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割。语义分割是对图像中的每一个像素进行分类,目前广泛应用于医学图像与无人驾驶等。语义在语音识别中指的是语音的意思,在图像领域,语义指的是原创 2021-08-07 15:37:45 · 5294 阅读 · 1 评论 -
CRNN:文本序列识别
CRNN:文字序列识别文字序列识别是图像领域的一个常见问题。一般来说,从自然场景图片中识别文字需要两步,首先定位图像中的文字位置,然后对文字序列进行识别。文字检测:解决的问题是哪里有文字,文字的范围有多长。文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。文章目录CRNN:文字序列识别一、相关背景介绍二、CRNN模型结构三、实验结果四、深入思考五、源码总结一、相关背景介绍常用的文字识别算法主要有两种框架,本文主要介绍第一种框架:1、CN原创 2021-08-02 14:40:36 · 2968 阅读 · 0 评论 -
Opencv车牌号字符分割
Opencv车牌号字符分割字符分割的任务,就是把多字符图像中的每个字符从整体图像中分割出来,使其成为单个字符图像,为下一步的单个字符的图像识别做准备。字符分割是字符识别的基础,字符分割的质量直接影响到字符识别的效果。文章目录Opencv车牌号字符分割一、算法流程二、效果展示三、源码四、项目链接一、算法流程输入原始图片,将其resize到(320, 100)尺寸,灰度化处理:利用cv2.bilateralFilter函数,在保持边界清晰的情况下有效去除噪声:利用cv2.Canny函数,检原创 2021-06-24 17:34:01 · 2362 阅读 · 0 评论 -
YOLOv3_目标检测
YOLOv3_目标检测YOLOv1最初是由Joseph Redmon实现的,和大型NLP transformers不同,YOLOv1设计的很小,可为设备上的部署提供实时检测速度。YOLO-9000是Joseph Redmon实现的第二个版本YOLOv2目标检测器,它对YOLOv1做了很多技巧上的改进,并强调该检测器能够推广到检测世界上任何物体的能力。YOLOv3对YOLOv2做了进一步的改进,引入多尺度特征融合,针对不同网格尺寸并行处理,大大提升了不同尺寸目标的检测精度。文章目录YOLOv3_目标检原创 2021-06-19 17:14:47 · 3154 阅读 · 0 评论 -
Tiny_Yolov1_VOC2007目标检测
Tiny_Yolov1_VOC2007目标检测相较于YOLO模型,Tiny_YOLO版本将网络压缩了许多,不管是训练还是移植速度都比较快,更加适用于业界应用。文章目录Tiny_Yolov1_VOC2007目标检测一、 Tiny_Yolov1结构二、VOC2007数据集上的训练过程三、检测效果四、深入思考五、源码六、相关链接一、 Tiny_Yolov1结构网络输入:(448,448,3)第一轮处理:(1)Conv2D(16, (3, 3), padding=‘same’, use_bias=Fal原创 2021-05-26 17:17:35 · 899 阅读 · 0 评论 -
OpenCV-车牌号检测
OpenCV-车牌号检测在github上看到一个小项目觉得挺有意思:借助传统图像处理技巧,通过opencv进行车牌号位置检测。虽然我实际测试后效果不太好,但也能学到另一种检测处理思路。原作者链接:https://github.com/Aqsa-K/Car-Number-Plate-Detection-OpenCV-Python文章目录OpenCV-车牌号检测一、传统图像处理目标检测二、效果三、深入思考四、源码五、项目链接一、传统图像处理目标检测输入一张原始图片,要求检测出车牌号位置。第1步:对图原创 2021-05-25 20:47:09 · 1745 阅读 · 1 评论 -
YOLO-v1-目标检测
YOLO-v1-目标检测目标检测是一件比较实际的且具有挑战性的计算机视觉任务,可以看成图像分类与定位的结合。给定一张图片,要求能够识别出图片中的目标并给出其具体位置。相比于图片分类问题,目标检测问题更加复杂。针对目标检测,一个很自然的想法就是:将图片输入到深度网络,让网络输出目标物体的中心坐标比例和长宽比例(x,y,w,h)。这种做法原理上是可行的,因为前期可以通过卷积、池化不断提取图片的深度特征,后期再利用全连接对提取到特征进行编码,就可以让它映射成我们想要的位置坐标。但如果要对多目标进行检测,上原创 2021-05-21 20:59:27 · 484 阅读 · 0 评论 -
YOLOv1-车辆位置检测
YOLOv1-车辆位置检测Vehicle Detection,在自动驾驶领域、车牌号识别系统中非常重要。其实可以看成一个单类别目标检测问题,对YOLOv1算法做一些调整:训练数据集true_y调整为(7,7,5)、网络输出pre_y调整为(7,7,10)、loss损失函数只保留location_loss、confidence_loss,而把class_loss注释掉。文章目录YOLOv1-车辆位置检测一、数据集简介二、YOLOv1训练过程三、实验结果四、源码五、项目链接一、数据集简介Stanfo原创 2021-05-17 09:48:00 · 1265 阅读 · 0 评论 -
RCNN_人脸检测
RCNN_人脸检测1966年,Marvin Minsky让他的学生Gerald Jay Sussman花一个暑假的时间,把相机连接到电脑上并使得电脑能描述出看到的东西,这就是目标检测的由来。2014年,作者RBG提出RCNN模型,创造性地使用Selective Search方法代替滑动窗口策略,并利用CNN提取图像特征,成为第一个可以真正工业级应用的解决方案,掀起了目标检测领域的研究热潮。文章目录RCNN_人脸检测前言一、数据集准备二、网络结构三、区域检测四、模型效果五、对结果的一些深入思考六、源码原创 2021-04-23 20:57:51 · 1228 阅读 · 1 评论 -
Selective Search算法-候选框生成
Selective Search算法—候选框生成相比于滑动搜索策略,Selective Search算法采用启发式的方法,过滤掉图像中很多断裂的子区域,候选生成所需的目标区域(Region Proposal),计算效率大幅提升。文章目录Selective Search算法---候选框生成引论:学习算法前的问题思考一、Selective Search算法实现步骤二、Selective Search算法流程图三、代码2.读入数据总结引论:学习算法前的问题思考Ques:如何粗略地度量两张图片的相似度?原创 2021-04-20 10:44:05 · 2097 阅读 · 0 评论 -
Keras-VGG16-图片分类
Keras-VGG16-图片分类VGG模型的名称,来源于牛津大学的Oxford Visual Geometry Group,该网络模型是他们在ILSVRC 2014上的相关工作,主要是证明了增加网络的深度能够在一定程度上影响网络最终的性能。目录Keras-VGG16-图片分类1、原始数据集2、VGG16网络细节3、模型求解结果4、对模型的一些深入思考5、具体代码6、项目链接1、原始数据集原始图片文件夹train:包含1200张猫的图片,1200张狗的图片,尺寸不尽相同。将2400张rgb原创 2021-04-16 11:01:07 · 3432 阅读 · 2 评论 -
Keras-Alexnet-图片分类
Keras-Alexnet-图片分类在自动驾驶、医学图像、目标检测领域,语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法,Unet可以实现对图像中每个像素点的分类,精度大大提升。语义分割,简单来说就是给出一张图,分割出图像中所需物体的一个完整准确的轮廓,其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于,不是由人来抠,而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确,这个是人眼达不到的。目录Keras-Alexnet-图片分类1、原始数据集2、U-net网络细节3、模原创 2021-04-15 19:48:46 · 1066 阅读 · 0 评论 -
Keras-Unet-语义分割
Keras-U-net-语义分割在自动驾驶、医学图像、目标检测领域,语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法,Unet可以实现对图像中每个像素点的分类,精度大大提升。语义分割,简单来说就是给出一张图,分割出图像中所需物体的一个完整准确的轮廓,其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于,不是由人来抠,而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确,这个是人眼达不到的。目录Keras-U-net-语义分割1、原始数据集2、U-net网络细节3、模型求解原创 2021-04-14 16:58:05 · 1906 阅读 · 0 评论 -
Keras-LeNet5-图片分类问题
Keras-LeNet5-图片分类问题1、原始数据集2、LeNet5网络细节3、对模型结果的深入思考4、具体代码5、项目链接1、原始数据集下载mnist.pkl.gz数据集,得到raw_train, raw_validation, raw_test。raw_train是一个三维列表,第1个分量是(50000,784)的列表,表示50000个样本,每个样本是(28,28)图片拉直成的向量。第2个分量是50000大小的一维列表,记录每个样本的数字。raw_validation是一个三维列表,第1个分量是原创 2021-04-12 11:06:44 · 642 阅读 · 0 评论