计算机视觉
文章平均质量分 92
基本相机模型,数字图像处理方法,深度学习方法解决2D,3D分割检测识别问题
恒友成
勿在浮沙筑高台
左脑学习,右脑应用
展开
-
19.单目测距原理介绍
根据,1.基本相机模型及参数2.OpenCV相机标定这两部分的介绍,我们可以知道相机的基本模型,其原理本质上还是小孔成像,感光芯片记录下成像信息变成图片来实现的。现在我们来看下OpenCV相机标定的结果,为了简化介绍,畸变系数这里不再重复介绍,可以参考上面两个博客。原创 2024-05-28 13:05:29 · 1626 阅读 · 0 评论 -
招聘二则!!!重庆知名汽车厂商机器人视觉Leader招聘+深圳石岩上市公司机器人视觉感知算法工程师招聘!!!
面议,不低于市场平均水平。面议,不低于市场平均水平。邮件主题请说明意向公司。原创 2024-05-27 23:38:51 · 683 阅读 · 0 评论 -
目标检测7-DETR算法剖析与实现
DETR是的等于2020年05月提交的论文中提出的。论文地址:开源代码:将目标检测问题看成是集合预测的问题,所谓集合预测是指一次输出一张图像中的所有待检测对象。DETR使用来做目标检测,直接预测检测框到检测框中心点归一化的距离。在模型训练时,使用的算法是一对一的匈牙利算法,通过query的方式获取最后的输出。以上介绍的策略,使得DETR实现了目标检测算法的端到端训练,不需要使用NMS和先验anchor。原创 2024-02-21 22:40:26 · 882 阅读 · 0 评论 -
18.自监督视觉`transformer`模型DINO
这篇文章旨在探索自监督训练有没有给视觉带来相对于CNN没有的新特性。除了观测到自监督训练ViT工作特别好外,作者还有两个新发现,一个是自监督训练得到的特征图包含明显的语义信息,有可能将自监督的结果直接拿来做语义分割和目标检测,另外一个是直接拿自监督得到的特征向量应用KNN分类,得到了非常好的效果。ps:本人在工程数据(20W张)上验证的直接使用KNN分类的效果比efficient-net还好。正如DINO的名字缩写,这整个算法使用了知识蒸馏的架构,通过一个teacher网络引导student。原创 2023-11-01 22:31:18 · 388 阅读 · 0 评论 -
Otsu阈值法原理及实现
Otsu阈值法发表于1979年,论文为,作者是日本东京大学的Nobuyuki Otsu(大津 展之)。自动全局阈值算法通常包括如下几步1.对输入图像进行预处理,如高斯平滑2.获取图像的灰度直方图3.计算阈值T4.对原图像二值化,小于阈值T的位置像素值设为0,大于阈值T的像素值设为255一般,各种阈值处理算法的区别主要在第3步,即确定阈值的逻辑不同。原创 2023-05-30 00:39:37 · 2013 阅读 · 0 评论 -
Haar特征
如上面的宽高。原创 2023-04-05 18:24:22 · 1845 阅读 · 0 评论 -
局部二值模式LBP
局部二值模式(Local Binary Patterns,LBP)是一种用于图像处理和计算机视觉中的特征描述符。它通过将每个像素与其周围像素进行比较,并将结果编码为二进制数来描述图像的纹理信息。LBP最初由芬兰奥卢大学的Timo Ojala、Matti Pietikainen和Topi Maenpaa于1994年在论文中提出。他们提出了一种用于纹理分析和识别的算法,并将其应用于人脸识别任务。原创 2023-03-25 11:51:23 · 3705 阅读 · 0 评论 -
方向梯度直方图HOG
根据前面介绍的梯度计算过程,可知梯度幅度受光照影响大,当灰度值变大时,梯度值也会跟着变大,为了减小光照的影响,可以对梯度直方图做归一化。上图中间的小图中,箭头表示梯度方向,箭头长度表示梯度幅值的大小。,只表示是水平边沿还是垂直边沿,并不判断上下左右,被称为"无符号梯度"。到这里就计算得到了图像的梯度,下面开始介绍方向梯度直方图。次,是一种非常经典的提取图像特征的方法。上面是前向差分求梯度,还可以使用后向差分,,加到对应直方图向量上,红色位置,角度为。梯度直方图的生成过程,蓝色位置,角度为。原创 2023-03-24 00:26:56 · 912 阅读 · 0 评论 -
目标检测6--R-FCN中的Position-Sensitive RoI Pooling
论文:代码:R-FCN本论文作者同,是清华大学的代季峰等于2016年05月份发表的。这篇文章中作者提出了R-FCN2016年的时候对标的还是的算法。R-FCN是一种全卷积的网络结构,几乎所有的计算对于整张图像都是共享的,因此结果相比更为准确,计算更为高效。在这篇文章中作者提出了评分图以解决分类问题中对象的平移不变性和目标检测问题中的位置敏感性。原创 2023-02-15 22:11:47 · 381 阅读 · 1 评论 -
目标检测6--NanodetPlus算法分析
NanoDet是上海人工智能实验室的RangiLyu于2020年10月份开源的轻量级检测项目,取得了很好的效果,广受关注。2021年12月份,作者又更新发布了NanoDetPlus,在coco val上的map提升了7个百分点。虽然作者将模型最终的输出concat为了一个输出,从下图可以看到有四个输出头,对应的stride分别为。原创 2022-10-27 22:24:13 · 2755 阅读 · 0 评论 -
目标检测5--旷视YOLOX算法介绍
2021年07月份,旷视的Zheng Ze与提交的论文中提出的检测算法。主要工作聚焦在和。作者使用YOLOX获得了2021年CVPR Autonomous Driving领域的第一名BaseDet。之前YOLO系列的论文自YoloV1后都是的,但自那之后如等的算法不断进步,YoloX的作者再次尝试将的算法技巧应用到Yolo算法上。作者认为属于优化过度的算法,因此其提出的YoloX算法主要与YoloV3做比较。YoloX中的使用的baseline是YoloV3-SPP,YoloV3-SPP中作者引入了。原创 2022-10-11 22:42:28 · 2784 阅读 · 0 评论 -
目标检测4--Adaptive Training Sample Selection(ATSS)算法
论文Bridging the Gap Between Anchor-based and Anchor-free Detection via代码https://github.com/sfzhang15/ATSSATSS是中科院自动化研究所的等最早于2019年12月份提交的论文中提出的方法,发表在CVPR2020会议上。文中分析了和的检测方法,性能差异的主要原因在于正负训练样本的定义方式不同,而和回归目标是基于**点式(point)还是盒式(box)**关系不大。检测常用的有两种方法,一种是,另一种是。的。原创 2022-09-29 08:19:14 · 735 阅读 · 0 评论 -
目标检测3--AnchorFree的FCOS
是澳洲阿德莱德大学的Zhi Tian等最早于2019年04月提交的工作成果,发表在ICCV上。FCOS是全卷积实现的的一阶目标检测器,避免了训练过程中Anchor相关的计算,减少的训练时的计算量和内存占用,移除了anchor相关的一系列超参数。检测性能对anchor的size//数量比较敏感。实际对象的检测框大小分布较广泛,anchor不一定能覆盖为了得到高召回率,的方法返回了非常多的anchor box,如FPN中,输入短边为800的图像将总共生成大于180K个Anchor Box。超级多的。原创 2022-09-24 12:34:28 · 915 阅读 · 0 评论 -
目标检测2——借Detectron2源码理解Anchors与RPN
也只是大概确定了检测框的宽高,还需在宽高方向上进行适量的缩放才能得到准确的检测框。的卷积,进一步融合特征,然后将卷积结果分别输入到两个分支上。只是大概定位了检测框的位置,还需对其进行少量的平移才能实现准确定位。结构的网络,对不同层级的特征分别进行处理即可。的大小是在检测输入图像的尺度上的,通过变换可知对于每个点共有。,介于两者之间的忽略。的卷积,只改变输入特征图的通道大小,不改变。的中心对应的原图上的坐标,与当前这个对应。中提出的一个网络结构,用于目标检测,中,可以看到,对于输入的图像,先经过。...原创 2022-08-19 01:02:40 · 1300 阅读 · 0 评论 -
目标检测1——RoI Pooling和RoI Align
据此自适应计算池化核的大小,然后在划分后的池化核范围内进行最大值池化或均值池化,如图中绿色框中所示。其中计算线性插值的函数使用的方式是按邻近4个像素点对当前点贡献多少来决定的,也就是面积加权平均,可参考上面的线性插值介绍的文章。且在绿色框中的池化操作,池化核的大小也采用均分,而非近似的方法。,是固定的,因此其后可以跟全连接层用来实现,检测框类别的判断和更好的位置回归。对于物体检测的目标,我们关心的是对象是人,则上图中红色的框中人的框选区域就是。在不同的情况下用户关心的图像区域是不同的,因此。...原创 2022-08-14 19:43:26 · 3167 阅读 · 0 评论 -
(十一) 跨平台修图软件GIMP及其批处理插件
GIMP全名,是跨平台的开源免费修图软件,其属于GNU软件套件系列,一定程度上可以媲美商业软件PS。linux下的安装可以通过flatpak来进行,先在官网下载安装脚本,如果linux下已安装flatpak,双击下载的文件会自动进行安装。若没有安装flatpak,需先手动安装flatpak,安装完成后就可以在应用程序中找到GIMP了若找不到,可通过flatpak来启动。...原创 2022-08-11 07:45:00 · 1849 阅读 · 1 评论 -
(十)图像数据的序列与反序列化
png图片格式是可携式网络图形()是一种支援无损压缩的点阵图图形格式,支援索引、灰度、RGB三种颜色方案以及Alpha通道等特性。PNG的开发目标是改善并取代GIF作为适合网络传输的格式而不需专利许可,PNG于1997年3月作为知识性RFC 2083发布,于2004年作为ISO/IEC标准发布2。png文件中,按字节读取后可以看到,开头的8个字节码总是十六进制数,这正是png格式文件的署名,是用来标识png格式的,所以只是修改了文件的后缀名,软件还是能够知道图片是png格式的。下面是通过python的。..原创 2022-08-07 23:16:21 · 686 阅读 · 0 评论 -
(四)旋转物体检测数据roLabelImg转DOTA格式
四)旋转物体检测数据roLabelImg转DOTA格式。原创 2022-08-01 00:42:06 · 3419 阅读 · 11 评论 -
(一)ADE20K数据集
欢迎访问个人网络日志🌹🌹知行空间🌹🌹ADE20K数据集是2016年MIT开放的场景理解的数据集,可用于实例分割,语义分割和零部件分割。利用图像信息进行场景理解 和 。即最常见的任务,将图像的不同像素按对象类别 进行分类,不仅要识别不同物体所属的类别,还需识别出同类的不同物体。是在识别出的物体上分割出不同部分所属的零部件类别,这对于理解场景帮助机器人与环境交互十分重要,如在某个 中分割出来 或者 ,为了坐下或者拿起杯⼦需要找到 中对应的 ,如 可以坐的部分, 的杯柄, 以实现机器⼈与知行特定的任务。已....原创 2022-07-07 01:14:33 · 15293 阅读 · 6 评论 -
(九)单应性矩阵
图像变换,单应矩阵原创 2022-05-27 00:20:42 · 6420 阅读 · 3 评论 -
Gamma校正
1.介绍1.1伽马校正是什么伽马校正,是用来针对影片或是影像系统里对于光线的辉度(luminance)或是三色刺激值(tristimulus values)所进行非线性的运算或反运算。1最简单的例子里伽马校正是由幂定律公式Vout=AVinγV_{out}=AV_{in}^\gammaVout=AVinγ所定义。其中通常情况下A=1,Vout、Vin∈[0,1]V_{out}、V_{in}\in[0,1]Vout、Vin∈[0,1]伽马值γ < 1的情况有时被称作编码伽马值, 也叫伽马原创 2021-11-27 00:58:10 · 2120 阅读 · 0 评论 -
图像相似性评价指标SSIM/PSNR
图像相似性评价指标SSIM/PSNR1.结构相似性指标SSIM参考自维基百科SSIM1.1介绍结构相似性指标(英文:structural similarity index,SSIM index),是一种用以衡量两张数字图象相似性的指标。结构相似性在于衡量数字图像相邻像素的关联性,图像中相邻像素的关联性反映了实际场景中物体的结构信息。因此,在设计图像失真的衡量指标时,必须考虑结构性失真。SSIM指标于2004年提出1。但当图像出现位移、缩放、旋转(皆属于非结构性的失真)的情况无法有效的反映。1.原创 2021-11-24 00:02:29 · 8269 阅读 · 0 评论 -
图像中的Exif信息及其处理
1.Exif可交换图像文件格式(英语:Exchangeable image file format,官方简称Exif),是专门为数码相机的照片设定的文件格式,可以记录数码照片的属性信息和拍摄数据。EXIF可以附加于JPEG、TIFF、RIFF等文件之中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息[1]。xif标准最初由日本电子工业发展协会(JEIDA - Japan Electronic Industry Development Association)制订,目前的最新版本是发布原创 2021-11-01 01:04:07 · 6371 阅读 · 1 评论 -
基本相机模型及参数
1.相机模型1.1基本针孔相机模型如图:空间中一点M(X,Y,Z)M(X,Y,Z)M(X,Y,Z)在图像平面上的投影点为m((xm,ym,zm)m((x_m, y_m,z_m)m((xm,ym,zm),相机的焦距为fff,对于理想真空相机模型可得如上的相似三角形ΔCmP∼ΔCMM′\Delta CmP \sim \Delta CMM'ΔCmP∼ΔCMM′,则可得:Zf=Yym=Xxm\frac{Z}{f}=\frac{Y}{y_m}=\frac{X}{x_m}fZ=ymY=xmX表示原创 2021-10-27 20:13:01 · 1976 阅读 · 0 评论 -
图像常用压缩格式
1.图像压缩简介将数据压缩的技术应用在图像上,以减少图像数据中的冗余信息,以便于图像的传输和存储。压缩的通则即是利用资料的一致性,越一致的资料,越能够进行压缩。图像的代表统计特性常用的有傅里叶转换域、直方图、特征指等。此外也可利用资料的规则性和可预测性来对其作压缩。常用的图像数据冗余主要有,编码冗余、空间和时间冗余、无关信息。常用的图像压缩技可分为有损压缩和无损压缩。有损压缩会丢弃原数据中的信息,压缩率较高,但无法重建原始的图像,如:DFT(离散傅里叶变换)、DCT(离散余弦变换)、KLT(搭配量化(原创 2021-10-25 00:31:06 · 4769 阅读 · 0 评论 -
图像压缩之哈夫曼编码
1.基本概念(1).路径:一棵树中,从一个结点到另一个结点所经过的所有结点,称为两个结点之间的路径,如上图,G到B的路径为G->F->B。(2).路径长度:从一个结点到另一个结点所经过的“边”的数量称为两个结点之间的路径长度。如上图,G到B的路径为G->F->B经过两条边,故路径长度为2(3).结点的带权路径长度:指树的根结点到该结点的路径长度与该结点权重的乘积。如上图:结点B的带权路径长度为 2x15=30(4).树的带权路径长度:指一棵树中,所有叶子结点的带权路径长度.原创 2021-10-21 01:12:36 · 6104 阅读 · 0 评论 -
Modules Of YoloV5 Architecture
1.Bottleneck来自于何凯明2014年工作Resnet2.BottlenetCSP与CSP论文描述的方式不一直,但CSP论文源码亦是通过此方式实现,参考YoloV5 Issues 781。3. C3:Bottleneck with 3 Convolutional Blocks将Bottleneck换成 SPP将变成 C3SPP,换成Transformer将变成C3TR, C3结构是Yolov5中提出的。4. FocusFocus层作为Yolov5中提出的,在最前面对输入做处理的层原创 2021-09-12 18:49:27 · 1621 阅读 · 0 评论 -
Yolov2 训练时anchor是如何使用的?build_target
0.简略描述1.将真值检测框变换到特征图尺度上2.计算以特征图每个网格中心为中心点时所有锚框与真值检测框的交并比3.取与真值检测框交并比最大的锚框的id,及真值检测框中心所在cell的id,有此,可将真值检测框与预测结果对应起来4.计算位置回归损失,置信度损失,分类损失1,网络的输出图1yolov2 网络对于检测框位置大小的输出是:对于1个batch网络的输出的shape为[batch_size, H*W*num_anchors, 5+num_classes], 其中:num_原创 2021-07-17 18:42:40 · 2305 阅读 · 3 评论