目标识别/语义分割
文章平均质量分 55
✅包含目标检测及语义分割的概念和代码实现
❌不包含数据处理,以及机器学习的基础内容(见其他专栏)
优惠券已抵扣
余额抵扣
还需支付
¥15.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
坠金
记性很差,写博客一是记录,二是交流分享,欢迎批评
展开
-
注意力机制的实现
注意力机制是什么,不同注意力机制的原理和结构请看我之前的博客:注意,这些分析还需进一步根据实际数据集和模型进行验证。原创 2024-10-31 11:37:34 · 241 阅读 · 0 评论 -
以segformer为例,CV中显存不够的处理方式
方法二:将opencv库改成PIL。方法一:降低batchsize。原创 2024-01-20 16:40:55 · 117 阅读 · 0 评论 -
近日思考()
cv任务是否可以分阶段学习?类似婴儿有一定的多分类能力,但没见过苹果,给它新数据集但是只标签只有背景和苹果(可能包含以前见过的类别,但标记为背景)科研过程的一些小思考,多半是自己还没能力实现的,如果有路过的大佬知道这些问题有解决的思路,请给我一点关键词,验证可行的请你喝咖啡~原创 2023-12-16 22:44:50 · 76 阅读 · 0 评论 -
加州数据集介绍
包含四个城市:Fresno, Modesto, Oxnard, Stockton数据的原遥感图像tif(及地理信息.xml)和标注数据csv是分开不同链接的,图像分辨率为。原创 2023-12-16 22:01:05 · 197 阅读 · 0 评论 -
SIFT尺度不变特征变换
SIFT(Scale-Invariant Feature Transform)是一种用于图像处理和计算机视觉中的特征提取和匹配的算法。它的主要优点是对图像的尺度、旋转和亮度变化具有较强的鲁棒性。原创 2023-11-27 12:42:29 · 249 阅读 · 0 评论 -
runner,hook介绍
当涉及到深度学习框架,例如 MMDetection 或其他 MM 系列工具,runner可以看作是训练过程的核心管理器,它负责模型的训练循环、评估以及与训练相关的各种事务。简单来说,当 runner“运行”,它会开始一个训练循环,迭代数据,前向传播、后向传播并更新模型权重。原创 2024-11-04 10:22:51 · 21 阅读 · 0 评论 -
EMA:指数移动平均
目的:使得参数变化更加顺滑。原创 2023-07-23 14:23:07 · 154 阅读 · 0 评论 -
effiecient teacher报错:字体
注释 项目/utils/plots.py内的check_font()问题出在第一行,下载要放的文件夹不对,所以导致了报错。原创 2023-04-28 20:07:58 · 344 阅读 · 0 评论 -
yolo:空间金字塔simsppf和sppf的区别
差别在卷积层中的激活函数,sppf是silu, simsppf是relu,单个模块提速了18%yolov5的sppf。原创 2023-04-27 11:16:40 · 1278 阅读 · 0 评论 -
伪标签学习
(34条消息) 讯飞人脸关键点检测大赛--打卡2--伪标签学习与蒸馏学习_知识蒸馏 伪标签_orient2019的博客-CSDN博客原创 2024-10-31 11:47:36 · 9 阅读 · 0 评论 -
全连接层FC
上图是lenet中的fc层直观上看,fc的作用是将二维矩阵变成一维列向量,假设输入是m*m的矩阵,则可以把全连接看作m*1的矩阵。原创 2023-04-16 20:57:39 · 773 阅读 · 0 评论 -
YOLO系列0:入门
Faster R-CNN的方法目前是主流的目标检测方法,但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性,这类方法使用了回归的思想,利用整张图作为网络的输入,直接在图像的多个位置上回归出这个位置的目标边框,以及目标所属的类别。(1) 给个一个输入图像,首先将图像划分成7*7的网格(2) 对于每个网格,我们都预测2个边框(上面:bbx+bbx是目标的置信度;下面:每个边框在不同类别的概率)原创 2023-04-16 13:56:29 · 88 阅读 · 0 评论 -
RCNN系列0:入门
当图像有很多物体,需要进行 多物体识别+定位多个物体 时,就不能再把这个任务看作分类问题,因为这么做需要找很多位置, 给很多个不同大小的框,你还需要对框内的图像分类。因此有人提出的方法,预先找出图中目标可能出现的位置,即候选区域(Region Proposal)。利用图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall)原创 2024-10-31 14:16:54 · 131 阅读 · 0 评论 -
目标检测入门:发展历史
对一张图片,用各种大小的框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的得分(classification)以及这个框图片对应的x,y,h,w(regression)。看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出方框的位置。• 还是刚才的classification + regression思路。• 让框出现在不同的位置,得出这个框的判定得分。输出:方框在图片中的位置(x,y,w,h)• 咱们取不同的大小的“框”• 取得分最高的那个框。思路一:看做回归问题。原创 2023-04-16 13:44:42 · 168 阅读 · 0 评论 -
神经网络训练过程
神经网络是由多个相互连接的层组成的。每个连接都有一个权重,用于表示它对下一层神经元的影响程度。衡量神经网络模型的准确性,使用损失函数表示网络输出与真实值之间的差距,我们的目标是最小化。训练神经网络的目标是调整这些权重,使得网络能够根据输入数据生成正确的输出。为了最小化损失函数,通常采用。原创 2023-04-04 14:10:02 · 828 阅读 · 0 评论 -
神经网络初始化方法
在线性回归,logistics回归的时候,基本上都是把参数初始化为0,我们的模型也能够很好的工作。这是因为如果把w初始化0,那么每一层的神经元学到的东西都是一样的(输出是一样的),而且在bp的时候,每一层内的神经元也是相同的,因为他们的梯度相同。基于概率分布的初始化方法,它根据输入和输出神经元的数量,将权重初始化为均匀分布或正态分布的随机数。适用于ReLU激活函数的初始化方法,其基本思想是将权重初始化为正态分布的随机数。x表示上一层神经元的输出值,W表示权重,b表示偏置,z表示神经元输出。原创 2023-04-04 13:58:57 · 358 阅读 · 0 评论 -
正则化
原理是在网络训练过程中,以一定的概率将一部分神经元随机置零,从而减少神经元之间的依赖性。(2)在反向传播时,将与前向传播时被关闭的神经元相应的梯度也置为0。,批量归一化,正则化,学习率调整,参数初始化,预训练,权重共享,模型集成。注意,对数据的操作,比如数据增强,本质也是对模型施加隐式的正则化。其中p是关闭概率,x是神经元输入,y是神经元输出。(1)在前向传播时,将某些神经元的输出随机置零。原创 2023-04-04 13:31:25 · 84 阅读 · 0 评论 -
池化/采样层pooling
常见的Pooling操作:max pooling, average pooling。降采样,以牺牲不重要信息作为代价,减小信息量。采样层本质:特征选择。原创 2023-04-04 13:22:59 · 62 阅读 · 0 评论 -
yolo结构介绍
在yolov5的backbone中的Bottleneck都默认使shortcut为True,在head中的Bottleneck都不使用shortcut。yolo5的网络结构配置文件中并未将neck和head进行区分,而是直接以head命名,这也是方便在models/yolo.py中的加载。neck:放在backbone和head之间的,进行特征融合,从而更好的利用backbone提取的特征。与ResNet对应的,使用add而非concat进行特征融合,使得融合后的特征数不变。backbone:提取特征。原创 2023-01-25 18:14:46 · 594 阅读 · 0 评论 -
从mask rcnn到mask scoring rcnn
对mask head输出的K(类别)个mask,选择哪个mask作为最终的输出,取决于分类支路置信度最高的类别。让分类置信度与mask质量之间能有高的相关性。左侧四幅图像显示出良好的检测结果,原创 2022-12-15 22:31:46 · 437 阅读 · 0 评论 -
数据增强实现与分析
Tensorflow 目标检测中数据增强究竟起了什么作用?-开源基础软件社区-51CTO.COM这篇博客的思路很好,首先在原训练集上进行flip数据增强,发现测试集的结果没有变好,提出猜想:flip提升了模型识别翻转对象的能力,但是测试集中没有翻转对象,因此结果没有体现然后进行验证,验证方法是:将测试集也进行翻转,然后用训练过的模型识别,比对结果这里有一个小知识点,对于一些目标,某些垂直翻转情况对于原图像的影响不是很大(比如飞机、猫),因此是否使用flip,要根据识别的目标因地制宜原创 2022-12-08 11:14:58 · 295 阅读 · 0 评论 -
注意力机制
在认知科学中注意力机制指:人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。原创 2022-10-30 10:10:22 · 594 阅读 · 0 评论 -
coco数据集标签可视化
下面的代码还没有写上类别,目前只能输出检测框,待更新。原创 2022-10-26 11:36:44 · 668 阅读 · 0 评论 -
激活函数
趋于极限时,激活函数的导数趋近于0激活函数中的硬饱和,软饱和,左饱和和右饱和。_donkey_1993的博客-CSDN博客_激活函数的饱和区。原创 2022-10-21 11:47:30 · 197 阅读 · 0 评论 -
PyTorch Conv2d中的四种填充模式解析
下面表格中,字体加粗倾斜加下划线的是填充前的原矩阵,四周一圈没加粗的是填充。原创 2022-10-19 21:24:13 · 258 阅读 · 0 评论 -
cv2.imread和Image.open的差异
Image.open()与cv2.imread()区别_枭玉龙的博客-CSDN博客原创 2022-10-13 21:42:59 · 169 阅读 · 0 评论 -
目标检测算法架构
理解目标检测算法的流程:retinanet。原创 2022-10-13 10:56:34 · 638 阅读 · 0 评论 -
如何理解 “Dense object detection“中的dense?
anchor在图像上每一个位置密集地平铺,进而采集各种尺寸、大小比例的样本,采集到的这些样本不会经过过滤,而是无差别地送入分类器(区分前后景)和回归器(回归精确位置)进行处理。二级检测器在第一阶段会精选出高质量的样本(数量远远小于一级检测器的样本,一般数量在1-2k),然后再送入第二阶段的模型中进行分类和回归。在Focal Loss for Dense Object Detection 这篇文章中有提到dense object detection。原创 2022-10-13 10:39:58 · 1301 阅读 · 0 评论 -
detectron2训练自己的数据集:批量测试图片
【代码】detectron2训练自己的数据集:批量测试图片。原创 2022-09-27 20:30:45 · 483 阅读 · 0 评论 -
voc格式数据集转换retinanet所需格式
其实就是转coco格式,retinanet完全可以直接使用coco格式数据集。原创 2022-09-25 17:54:04 · 359 阅读 · 0 评论 -
AP,mAP,AP50,coco评价标准
每张图片最多预测10个边界框时的average recall。如果取10和取100相差很小,说明数据集中的物体数量没有接近100,平时的参数写10就行。从IOU阈值为0.5到0.95,以0.05为间隔,十个AP的均值。像素面积小于32*32的目标。用来看小目标的检测情况。不同于分类,在这里我们将 iou和阈值比较。是iou阈值=50时求得的AP。coco数据集是什么?AP就是PR曲线的积分,如上文所述。coco里的AP就是mAP。原创 2022-09-24 10:51:43 · 3403 阅读 · 0 评论 -
图像分割、目标检测发展历程&入门知识
输入m*n的图片,通过矩阵计算变换,得到m*n的二维向量,每个元素表示原图片该像素归属哪一类。输入图片,通过矩阵计算变换,得到1*n的一维向量,每个元素表示归属某一类的概率。滑动窗口 = 窗口滑动,同时对窗口内的内容进行图像分割。可以看到这个方法的计算量特别大。原创 2022-09-19 10:25:11 · 637 阅读 · 0 评论 -
图像处理常用公开数据集
VOC:visual object classesPASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试,提,挑战赛和其所使用的数据集已经成为了对象检测领域普遍接受的一种标准。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中,这是一个监督学习的问题,训练集以带标签的图片的形式给出。这些物体包括20类:该挑战主要包括三类任务:分类(classification),检测(detection),和分割(segmentation)VOC2007:中包含9963张标注过的图片, .原创 2022-02-05 18:26:09 · 1062 阅读 · 0 评论 -
RCNN系列2:Faster R-CNN介绍
提出了RPN(Region Proposal Network),和检测网络共享卷积特征图,解决了区域建议算法的计算瓶颈提出了一种Faster R-CNN的训练方法(RPN和Fast R-CNN同时训练)传统解决目标尺度问题的方法有图像/特征图金字塔、滤波器金字塔,而本文提出了锚框金字塔的方式(a pyramid of anchors)........................原创 2022-08-31 20:26:10 · 650 阅读 · 0 评论 -
RCNN系列1:RCNN介绍
R-CNN 采用 AlexNetR-CNN 采用 Selective Search 技术生成 Region Proposal.R-CNN 在 ImageNet 上先进行预训练,然后利用成熟的权重参数在 PASCAL VOC 数据集上进行 fine-tuneR-CNN 用 CNN 抽取特征,然后用一系列的的 SVM 做类别预测。R-CNN 的 bbox 位置回归基于 DPM 的灵感,自己训练了一个线性回归模型。R-CNN 的语义分割采用 CPMC 生成 Region论文。...原创 2022-08-24 18:22:43 · 481 阅读 · 0 评论 -
实例分割-二阶段模型-RCNN系列介绍
在二阶段模型中,最常见的就是用于实例分割的R-CNN系列。图像分割根据模型架构可以分为一阶段模型,二阶段模型。图像分割根据任务要求可以分为语义分割,实例分割等。2016 :Faster R-CNN 目标检测。2015:Faster R-CNN 目标检测。2017: Mask R-CNN 实例分割。2014:R-CNN 目标检测。...原创 2022-08-24 12:02:12 · 983 阅读 · 0 评论 -
语义分割研究现状
前面介绍了语义分割是什么,这篇进一步介绍语义分割的研究现状。早期的分割采用传统的算法,比如基于阈值、边缘、区域、聚类、图论及特定理论等,这些方法的在特定数据分布上依赖专家知识可能效果不错,但迁移性往往不足,这篇侧重介绍语义分割中的深度学习方法。(采用深度学习的优点?).................................原创 2022-08-12 14:42:50 · 1477 阅读 · 0 评论 -
分割的单阶段,两阶段,实时分割模型
one stage, two stage。首先介绍分割面临的难点,接着介绍当前分割采用的模型结构(单阶段,两阶段,实时分割模型)。注意,这里我不想偏重语义分割或者实例分割,只介绍两者都通用的结构。原创 2022-08-11 10:25:11 · 895 阅读 · 0 评论 -
图像识别、语义分割概念区别
对于一般的分类CNN网络,如VGG和Resnet,都会在网络的最后加入一些全连接层,经过softmax后就可以获得类别概率信息。但是这个概率信息是1维的,即只能标识整个图片的类别,不能标识每个像素点的类别,所以这种全连接方法不适用于图像分割。FCN提出可以把后面几个全连接都换成卷积,这样就可以获得一张2维的feature map,后接softmax获得每个像素点的分类信息,从而解决了分割问题。..................原创 2022-08-10 19:45:16 · 686 阅读 · 0 评论 -
损失函数-交叉熵的原理及实现
int这段代码点进去看,其实也是套娃,看不出用的公式交叉熵的公式二分类多分类pytroch这里不是严格意义上的交叉熵损失函数,而是先将input经过softmax激活函数,将向量“归一化”成概率形式,然后再与target计算严格意义上交叉熵损失。torch.nn-PyTorch中文文档(pytorch-cn.readthedocs.io)不妨设当γ=0时,Focalloss=crossentropy这么设置的意义是什么?httpshttpshttps。...原创 2022-07-26 11:47:59 · 235 阅读 · 0 评论