magic_shuang-CSDN博客

原创【论文目录】

目标检测论文作者原文解读亮点 OverFeat Sermanet, PierreEigen, David 论文地址理解多尺度输入 YOLO .v1 理解 YOLO .v2 理解 YOLO .v3 理解 YOLO .v4 论文地址理解 ...

2020-11-22 22:10:16 279 1

原创【没有哪个港口是永远的停留~论文理解】mask2former

masked attention 的mask加在哪？上图是根据代码和原论文中的图重新绘制的具体结构。具体在Head中的位置：标黄的位置。

2024-01-03 17:48:11 624

原创【没有哪个港口是永远的停留~论文解读】stable diffusion 总结代码&推导&网络结构

这里之所以在prompt中加入类别，是因为作者想利用预训练模型中关于该类别物品的先验知识，并将先验知识与特殊标记符相关信息进行融合，这样就可以在不同场景下生成不同姿势的目标物体。是两个分布的相似度，分布q是预测的高斯分布，分布p是标准正态分布，这部分越小，两个分布越相似，最终的似然函数越大。作者提出的方法，大致如下图所示，即仅仅通过3到5张图片去微调文生图模型，使得模型能将输入图片中特定的物品和prompt中的特殊标记符关联起来。样例间独立，我们想找到每个样例隐含的类别z，能使得p(x,z)最大。

2024-01-02 11:17:56 2298

原创【没有哪个港口是永远的停留~论文解读】MIM_2022_CAE (Context Autoencoder for Self-Supervised Representation Learning)

图6：说明了在ImageNet-1K上预训练的ViT编码器的最后一层中，类令牌和补丁令牌之间的12个注意力头的平均注意力图。顶部：输入图像，中部：MoCo v3，这是一种典型的对比学习方法，底部：我们的CAE。这要求CAE编码器关心 patches 的表示，而不仅仅是全局表示，以便CAE探索 patches 之间的关系，以进行预测。，因此来自同一图像的不同crops 的表示可能是相似的。的情况下，最大化 masked patches 的预测Ym的概率：P（Ym|Xv，Pv，Pm）。它可以通过引入潜在表示。

2023-12-29 13:58:45 1293

原创【没有哪个港口是永远的停留~论文解读】自监督 BEITv2:Masked Image Modeling with Vector-Quantized Visual Tokenizers

大多数现有的研究都是针对。

2023-12-29 10:54:17 1650

原创【没有哪个港口是永远的停留~论文简读】HRNet+OCR

从HRNet中学习到的高分辨率表示不仅在语义上很强，而且在空间上也很精确。这来自于两个方面。（i）我们的方法是将高到低分辨率的卷积流并行连接，而不是串联连接。因此，我们的方法能够保持高分辨率，而不是从低分辨率中恢复高分辨率，因此，学习到的表示可能在空间上更精确。（ii）大多数现有的融合方案聚合了通过上采样低分辨率表示获得的高分辨率低级和高级表示。相反，我们在低分辨率表示的帮助下，重复多分辨率融合来提高高分辨率表示，反之亦然。因此，所有的高到低分辨率表示都在语义上是强的。

2023-12-28 20:36:54 1133

原创【没有哪个港口是永远的停留~论文解读】Polarized Self-Attention

H]空间分辨率，也关注内部，保持Wq 和 Wv 中的 2×C×C/2 个可学习参数，非线性 Softmax 重新加权，这是比现有块更强大的结构。此外，在我们的仅通道注意力中，Softmax重新加权与SE激励融合，利用 Softmax 作为大小 C/2 × W × H 的 bottleneck 处的非线性激活。由于总强度的损失，滤波后的光通常具有较小的动态范围，因此需要额外的提升，恢复原始场景的细节。通道数 (C-C)/(2-C) 遵循SE模式，这比GC 和 SE 块都好。通道注意力+空间注意力。

2023-12-28 20:21:57 1441

原创【没有哪个港口是永远的停留~论文简读】Panoptic SegFormer

具体来说，给定N个随机初始化的query和由Transformer编码器生成的细化的特征token，解码器将输出N个具有位置感知性的query。在训练阶段，作者在位置感知query的基础上应用一个辅助的MLP头来预测目标对象的尺度和中心位置，并使用位置损失来监督预测。由于多头注意层的计算成本高，以往基于Transformer的方法只能在其编码器中处理低分辨率的特征图(如ResNet的C5)，这限制了分割性能。在全景分割任务中，位置信息在区分具有不同实例id的things方面起着重要的作用。

2023-12-28 20:16:03 1060

原创【没有哪个港口是永远的停留~论文解读】Both Style and Fog Matter

解决问题：大雾、下雨、下雪天模糊场景1-去雾算法，人工干扰2-合成的雾图像，不像真实的雾图像那样真实，也会扩大清晰图像和雾图像之间的域差距，产生不令人满意的性能。此外，我们认为这些方法过多地考虑了雾的因素，而忽略了其他因素，这可能会影响SFSU问题中的域差距。开箱即用，我们建议明确研究SFSU中的域间隙我们假设域间隙是由混合雾的影响和风格变化引起的，这两者对SFSU都很重要。利用衡量分割模型在特定领域的整体性能，即领域性能。训练：s 域测试：s、m 和 t 域计算 MVV。

2023-12-28 20:11:29 1024

原创【没有哪个港口是永远的停留~论文解读】FlowNet 2.0

warp 后的流细化的积极效果可以抵消这个问题，但当堆叠网络一个接一个地训练时，可以获得两者的最佳效果，因为这避免了过拟合，同时具有流细化的好处。6) 现象【Chairs→Things3D 优于 mixed】推测：更简单的Chairs数据集有助于网络学习颜色匹配的一般概念，而不会过早地为3D运动和逼真的照明开发可能令人困惑的先验。（1）仅堆叠网络而不warp 可以提高Chairs的结果，但会降低Sintel的性能，即堆叠网络过于拟合。（3）当训练堆叠的网络端到端时，在Net1之后添加中间损耗是有利的。

2023-12-28 19:48:36 1232

原创【没有哪个港口是永远的停留~论文解读】基于光流的分割 Dynamic Video Segmentation Network

是决定是否通过。

2023-12-28 19:23:23 1062

原创长尾问题之CAM

CAM是一个帮助我们可视化CNN的工具。使用CAM，我们可以清楚的观察到，网络关注图片的哪块区域。比如，我们的网络识别出这两幅图片，一个是在刷牙，一个是在砍树。计算过程：热力图：W1*蓝色层+W2*红色层+…+Wn*绿色层=类激活映射（CAM），所以说CAM是一个加权线性和。可以看到，可视化过程是去掉GAP(全局平均池化)的，直接将线性层和特征图相乘。

2023-12-15 11:38:40 110

原创长尾问题之LDAM

LDAM

2023-12-15 11:20:12 293

原创量化基础总结

量化分类及基本概念模型量化方法本质上是函数映射。量化建立了高精度的浮点数值和量化后低精度的定点数值之间的数据映射。分为线性量化和非线性量化【线性量化】线性量化是目前最常用的量化方法，尤其是在工业界应用比较成熟的8比特量化方案采用的都是线性量化。浮点->定点的公式如下：定点->浮点的公式如下：其中：...

2022-04-24 13:48:00 8630 1

原创三、边缘检测算子

边缘检测算子有哪些：Sobel、Prewitt、Roberts算子 Canny算子 Marr-Hildreth边缘检测算子 Holistically-Nested Edge Detection（HED）深度学习1、基本边缘检测算子Sobel、Prewitt、Roberts算子：以sobel为例：计算过程如下2、Canny算子多级边缘检测算法，其目标是找到一个最优的边缘，其最优边缘的定义是：1.好的检测--算法能够尽可能多地标...

2022-03-25 11:31:21 10386

原创 SURF特征提取原理

未完待续

2022-03-25 11:14:44 361

原创 SIFT特征匹配算法原理过程

尺度不变特征变换匹配算法 ScaleInvariantFeatureTransform(SIFT) 是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由DavidLowe在1999年所发表，2004年完善总结。基本步骤：尺度空间的极值检测删除不好的极值点，留下来的就是特征点特征方向幅值特征点描述step1:差分高斯金字塔图像金字塔、高斯金字塔、差分高斯金字塔step1.5:尺度空间...

2022-03-25 11:09:38 1056

原创 LBP特征算子原理过程

LBP（Local Binary Pattern，局部二值模式）是一种用来描述图像局部纹理特征的算子；它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出，用于纹理特征提取。而且，提取的特征是图像的局部的纹理特征；LBP的应用中，如纹理分类、人脸分析等，一般都不将LBP图谱作为特征向量用于分类识别，而是采用LBP特征谱的统计直方图作为特征向量用于分类识别。　　因为，从上面的分析我们可以...

2022-03-25 11:04:11 636

原创 Hog特征提取原理过程细节

Hog步骤：图像预处理梯度图归一化 SVM一图读懂Hog读不懂那就一点一点看吧------------------------------------1、图像预处理:包括伽马校正或灰度化2、计算每一个像素点的梯度值，得到梯度图（规模和原图大小一样）其中：水平梯度gx =30-20=10 竖直梯度gy=64-32=32到此，梯度图以计算完成梯度方向的范围是0-180度。取绝对值的原因是这样效果更好首先，我将0-180度分成9个bins，分...

2022-03-25 11:01:50 3254

原创 BM3D算法原理

上级目录：传统图像处理/降噪与滤波原理:第一阶段：a)块匹配估计：i)块匹配分组 ii)3D协同硬阈值滤波；b)聚合加权滤波；第二阶段：a)块匹配估计：i)块匹配分组 ii)3D协同维纳滤波；b)聚合加权滤波.详细：i)块匹配分组：按照划窗的方式在图像中搜索与给定图像块的相似图像块ii)3D协同硬阈值滤波所有图像块经过第一个2D正交变换后，对应位置的像素点沿着第三维串起来，在第三维方向进行1D的正交变换，这个正交变换揭..

2022-03-25 10:53:46 1815

原创 NLM（Non-Local means）算法原理

上级目录：传统图像处理/降噪与滤波原理:

2022-03-25 10:51:25 5651 1

原创引导滤波原理

原理导向滤波的大前提：如图所示，算法认为目标图像 Q上相邻的点是线性相关的，之所以待处理图 P不清晰是因为，不相关的部分（噪声），引导图I是另一个输入，它与P有相同的梯度，当滤波时可以设置I=P.用线性相关的核W去更新像素点，就会使得P更接近Q.那么能使得P最接近Q的核就是我们求解的目标换句话说就是：求P-Q最小值时，核W是多少？用公式来表示就是：其中：i 是坐标点 pi是待处理图像,i位置的像素点 qi是目标图像, i位置的像素点 wk是核由大前提可以.

2022-03-25 10:48:11 4106

原创双边滤波原理

上级目录：传统图像处理/降噪与滤波原理：双边滤波=空间域+值域一张图DDDDσ的意义及选取空间域sigma(space）选取:sigma（space）越大，图像越平滑，趋于无穷大时，每个权重都一样，类似均值滤波。 sigma（space）越小，中心点权重越大，周围点权重越小，对图像的滤波作用越小，趋于零时，输出等同于原图。值域sigma(color）选取:Sigma(color）越大，边缘越模糊，极限情况为simga无穷大，值域系数...

2022-03-25 10:44:41 3180

原创高斯滤波器、高斯平滑原理

上级目录：传统图像处理/降噪与滤波一个二维的高斯函数如下：其中：(x,y)为点坐标，在图像处理中可认为是整数; σ是标准差。σ的意义：σ越大，分布越分散，各部分比重差别不大，于是生成的模板各元素值差别不大，类似于平均模板；σ越小，分布越集中，中间部分所占比重远远高于其他部分，反映到高斯模板上就是中心元素值远远大于其他元素值，于是自然而然就相当于中间值得点运算。高斯核咋出来的？将各个位置的坐标带入到高斯函数中，得到的值就是模板的系数。对于窗口模板的大小为(2

2022-03-25 10:40:28 965

原创二、传统特征算子

HOG\LBP\SIFT\SURF

2022-03-06 22:25:43 3589

原创一、降噪与滤波

噪声根据噪声和信号的关系可将其分为三种形式：(f(x, y)表示给定原始图像，g(x, y)表示图像信号，n(x, y)表示噪声。)加性噪声，此类噪声与输入图像信号无关，含噪图像可表示为f(x, y)=g(x, y)+n(x, y),信道噪声及光导摄像管的摄像机扫描图像时产生的噪声就属这类噪声；乘性噪声，此类噪声与图像信号有关，含噪图像可表示为f(x, y)=g(x, y)+n(x ,y)g(x, y),飞点扫描器扫描图像时的噪声，电视图像中的相干噪声，胶片中的颗粒噪声就属于此类噪声。量化噪

2022-03-06 21:52:39 6118

原创传统图像处理方法【目录】

本专栏按自己脑回路归纳，按照【重要程度】排顺序，注意不是困难程度一、降噪与滤波二、传统特征算子三、边缘检测算子四、角点检测算子五、图像集合变换六、霍夫变换七、颜色空间与图像频域八、连通域九、图像增强方法十、图像质量评价指标十一、光流与追踪十二、摄像头基础...

2022-03-06 21:07:33 3206

原创海康威视摄像头 rtsp取流地址（测温）

主码流取流:rtsp://admin:12345@192.1.1.64:554/h264/ch1/main/av_stream子码流取流:rtsp://admin:12345@192.1.1.64:554/h264/ch1/sub/av_stream红外摄像头：rtsp://admin:12345@192.1.1.64:554/h264/ch2/main/av_streamch1/ch2就是Camera 01/Camera 02...

2021-11-05 14:12:49 13021

原创【部署目录】

类别功能框架引用链接持久化 ckpt 模型保存 tensorflow 链接持久化 ckpt 转 pb tensorflow 链接持久化 yolov5 转 tensorrt Pytorch 量化 bazel 压缩 pb 模型 tensorflow 链接量化静态量化 Pytorch 链接蒸馏论文研究

2021-08-06 13:08:16 1001

原创 YOLOv5 转 Tensor RT

step1:pt 模型转成 onnxyolov5/model/export.py输出模型：XXX.onnx XXX.torchscript.ptstep2:查看输出的onnx模型安装 netronpip install netron用netron看模型import netronnetron.start('best.onnx')step3:onnx-simplifier 简化模型安装 onnx-simplifierpip install onnx-s...

2021-08-06 13:06:38 1163

原创【没有哪个港口是永远的停留~ 论文简读】SlowFast

code:https://github.com/facebookresearch/SlowFast论文：SlowFast Networks for Video Recognition没打算研究，但看到了何凯明三个大拼音，闪瞎了我的狗眼一、模型长啥样？很直观以ResNets 为例，展示怎么设置网络结构很明显，转化的特点是：Slow/Fast可以是不同的任何模型找尺寸相同的靠后层做几个侧链接，res4&res5 (前面层的加上不准) Fast要快，所...

2021-08-02 17:42:45 190

原创【代码裁缝】YOLOv5 l to s Distillation

part1:源码赏析源码：... ... # student rois, cls_prob, bbox_pred, \ rpn_loss_cls, rpn_loss_box, \ RCNN_loss_cls, RCNN_loss_bbox, \ rois_label, stu_feature, mask_batch = fasterRCNN(im_data

2021-07-16 10:41:26 945 6

原创【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

论文：Relational Knowledge Distillation【1】关系知识蒸馏，中的关系知识是啥？如图1，很明显就是字面意思，传统的知识蒸馏是让学生输出与教师模型一致，而本论文提出，输出之间的关系是要学习的知识图1传统的KD loss求法：其中是一个损失函数，它惩罚老师和学生之间的差异。可以KL散度【2】咋算的这个关系知识？图2如图2，很直观，通过teacher的输出提取出关系与学生的求loss那么其中的怎么算的？就是欧式距离，最终..

2021-07-14 10:49:41 441

原创【没有哪个港口是永远的停留~ 论文简读】2017 Learning Efficient Object Detection Models withKnowledge Distillation

链接：2017 Learning Efficient Object Detection Models withKnowledge Distillation这篇论文是基于Faster--RCNN模型的，模型中的RPN部分对应图中Soft Label对应部分 RCN部分对应的是最右侧的预测，最终的Loss表示为一点一点看哈【1】先看左边的部分，是选取Teacher模型的中间层，以及Student的一个中间层。添加个适应层Adaptation,保证Teacher和Student同尺寸..

2021-07-13 17:54:51 341

原创【没有哪个港口是永远的停留~ 论文总结】KD 知识蒸馏目标检测 YOLOv5

前言：知识蒸馏干的事很简单，就是把大模型的输出作为小模型的软标签，这样小模型不仅有数据集的硬标签，还有大模型的软标签但是，令人头疼的是，对于分类问题这个软标签的定义很清晰明确，就是分类的置信度，但是目标检测的检测框，这个软标签应该是什么？最终预测的box?所有box输出？实验结果很差，还不如直接训练小模型准呢，看来还是不能想当然的无脑梭哈！那目标检测的软标签应该是什么？研究了X篇论文，在此记录一下他们的思路和方法2021 General Instance Distillation f

2021-07-13 16:33:54 2006 16

原创【没有哪个港口是永远的停留~ 论文简读】2019 Distilling Object Detectors with Fine-grained Feature Imitation

链接：2019 Distilling Object Detectors with Fine-grained Feature Imitation代码：https://github.com/twangnh/Distilling-Object-Detectors思路是：首先定位这些知识密集的位置，并让学生模型模拟教师的高级特征反应图1如图1所示：【1】labels -> Fine-grained feature imitation Mask用标签框形成W×H×K 大小的...

2021-07-13 16:30:31 694

原创【没有哪个港口是永远的停留~ 论文简读】GI Distillation for Object Detection

链接：2021 General Instance Distillation for Object Detection知识蒸馏典型的知识形分三类：基于响应的知识、基于特征的知识、基于关系的知识这篇论文是三种知识都用上了理解算法主要分5步，下面一一解释step1:GISM是啥？ step2:咋通过GISM进行特征知识截取的？ step3:咋通过GISM计算关系知识？ step4:咋算响应知识的？ step5:真的好使么？step1:GISM是啥？论文GISM模块计算过程如图...

2021-07-13 14:54:03 567

原创 CUDA加速：一文解决numba所有问题

一、安装numba版本一览 os python llvm-dev llvmlite numba ubuntu18 3.6.9 3.9 0.16 0.31 唠叨：numba依赖llvm,所以先安装llvmbrew install homebrew/versions/..

2021-06-22 17:33:46 8255

原创 Pytorch量化之静态量化

env：pytorch==1.7.1 torchvision==0.8.2 python==3.6注意：精度变差操作比较简单，但还是需要动模型层合并的部分需要对结构有了解模型大小变为原来的1/4 推理速度提高20+%step1:加载模型就正常加载即可，没啥特别的model = Resnet().to(device)checkpoint = torch.load(weights, map_location=device)model.load_state_dict(c

2021-02-22 16:57:03 4834 8

原创【没有哪个港口是永远的停留~ 论文简读】R-CNN、Fast R-CNN 、Faster R-CNN

论文：R-CNN论文：Fast R-CNN论文：Faster R-CNN

2021-02-16 14:00:50 131 1

长尾问题之LDAM mmpretrain模块

bazel.exe windows 64位 X86

空空如也