Flying Bulldog-CSDN博客

原创论文精读 && MOG2系列 && OpenCV源码提供的论文

背景减法是一项常见的计算机视觉任务。我们分析通常的像素级方法。我们使用高斯混合概率密度开发了一种有效的自适应算法。递归方程用于不断更新参数，而且还用于同时为每个像素选择适当数量的分量。静态摄像机观察场景是监控系统的常见情况。检测入侵物体是分析场景的重要步骤。一个通常适用的假设是，没有跋涉物体的场景图像表现出一些可以用统计模型描述的规则行为。如果我们有一个场景的统计模型，可以通过发现图像中不符合模型的部分来检测入侵物体。这个过程通常被称为“背景减法”。

2024-04-17 11:26:43 862

原创针对窗口数量多导致窗口大小显示受限制的问题，使用滚动条控制窗口

首先观察结果展示，判断是否可以满足你的需求。项目需要显示的窗口数量颇多，主界面中，如果一次性显示全部窗口，那么窗口的大小就会受到限制，满足不了用户需求。显示不同窗口数量时，单个窗口的大小对比，如下所示：

2024-04-17 10:57:11 646

原创 SCI 四区（JEI）投稿到录用过程中的经历和心得体会

计算机视觉领域中，包含目标检测、三维重建、语义分割、图像分类等分支。其中，目标检测分支最卷，你知道的，没有背景和资源，发一篇SCI属实不易。本篇博客详细介绍本人投稿到录用过程中的经历和心得。科研之路虽蜿蜒崎岖，我们也要昂首阔步抵达彼岸，那时的我们站在成长的尽头，回首过去，一路崎岖早已繁花盛开。祝大家马到成功！早日ACCEPT！

2024-04-15 22:40:59 1406 4

原创使用CMake和MinGW配置Opencv-MinGW版本，以适用于Qt5的MinGW工具集（undefined reference to ‘cv::Mat::Mat()‘）

全网与本博客内容相关的工作很多，只要可以解决问题，选用哪一种方法都好，最重要的环节是软件版本和系统环境。成功的版本示例Qt Creator 5.12.9、Opencv 4.9.0、mingW 8.1.0 seh、CMake 3.29.1。MSVC：Qt5 只兼容MSVC的2015、2017版本，本机的VS是2019版本，而 Qt6 可以兼容更高版本的MSVC，本人未尝试安装。MinGW：Qt5 MSVC可以正常使用 Opencv 库，而Qt5 MinGW 大多数情况下，需要使用 CMake 编译 Opecv

2024-04-15 10:04:49 1050

原创论文精读 && MOG2 && 阴影检测

图像序列中运动区域的实时分割是许多视觉系统的基本步骤，包括自动视觉监视、人机界面和低频电信号。一种典型的方法是背景减法（background subtraction）。问题：许多背景模型被引入来处理不同的问题。这些问题的成功解决方案之一是使用Grimson等人[1,2,3]提出的每像素多色背景模型。然而，该方法在开始时学习缓慢，尤其是在繁忙的环境中。此外，它无法区分移动阴影和移动对象。本文提出了一种改进这种自适应背景混合模型的方法。通过重新研究更新方程，我们在不同的阶段使用不同的方程。

2023-12-07 21:36:11 1068

原创论文精读 && MOG && 埃里克·格里姆森

实时分割图像序列中运动区域的一种常见方法包括“背景减法”，即对没有运动对象的图像估计值与当前图像之间的误差进行阈值处理。解决这个问题的多种方法因所使用的背景模型类型和更新模型的程序而异。本文讨论了将每个像素建模为高斯混合，并使用在线近似来更新模型。然后评估自适应混合模型的高斯分布，以确定哪些最有可能由背景过程产生。根据最有效地表示每个像素的高斯分布是否被视为背景模型的一部分，对每个像素进行分类。过去，计算障碍限制了实时视频处理应用的复杂性。

2023-12-07 15:51:36 1294

原创论文精读 && Co-DETR（Co-DINO、Co-Deformable-DETR）

1. Co-DETR基于DAB-DETR、Deformable-DETR和DINO网络进行了实验。2. Co-DETR发现DETR及其变体网络是一对一标签分配，指出了其中的问题，随之提出一对多标签分配监督多个并行辅助头的方法。3. 为了提高解码器中正样本（positive samples）的训练效率，Co-DETR从辅助头中提取正坐标（positive coordinates）来进行额外定制的正查询（positive queries）。4. 辅助头只在训练过程中使用，推断过程中被丢弃，只使用源网络进行推断。

2023-12-01 15:04:20 2457 1

原创论文精读 && MediaPipe BlazeFace

我们介绍BlazeFace，一款为移动GPU推理量身定制的轻量级且性能良好的人脸检测器。它在旗舰设备上以200–1000 FPS的速度运行。这种超实时性能使其能够应用于任何需要准确的感兴趣面部区域作为特定任务模型输入的增强现实管道，如2D/3D面部关键点或几何估计、面部特征或表情分类以及面部区域分割。一个受 MobileNet V1/V2 启发但不同于MobileNet的轻量级特征提取网络；一个从单次多盒检测器（SSD）修改而来的GPU友好锚定方案；以及一个改进的平局分辨率策略，以替代非最大值抑制。

2023-11-14 16:12:22 447

原创论文精读 && MediaPipe Hands

我们提出了一种实时的设备手跟踪解决方案，该解决方案可以从AR/VR应用的单个RGB相机预测人类的手骨架。我们的管道由两个模型组成：1）手掌检测器，它为手掌提供一个边界框；2）模型，它预测手掌骨架。它是通过实现的，这是一个用于构建跨平台ML解决方案的框架。所提出的模型和流水线结构证明了移动GPU上的实时推理速度和高预测质量。MediaPipe Hands的源代码为图1：渲染的手跟踪结果。（左）：用不同色调呈现相对深度的hand landmarks。圆圈越轻、越大，地标就越靠近相机。

2023-11-14 13:01:31 863

原创行人检测综述之精华提取——图表与挑战

调查内容：关于行人检测的传统算法和深度学习算法；关于行人检测的单光谱检测和多光谱检测；关于行人检测的多种数据集；关于行人检测的问题和挑战。一篇好的论文（此综述发表在PAMI期刊，SCI一区TOP），只看图表便可以大概读懂其内容，所以，本博客不对综述内容进行逐句翻译，只撰写综述中的图表和未来挑战。

2023-11-09 22:34:49 378

原创 MySQL数据库总结之多表查询

一万两千字的博客，值的细细品味！1. 多表关系、1.1 一对多、1.2 多对多、1.3 一对一、2 多表查询、2.1 数据准备、2.2 概述、2.3 分类—内连接、外连接和自连接、3. 内连接、4. 外连接、5. 自连接、5.1 自连接查询、5.2 联合查询、6. 子查询、6.1 概述、6.2 标量子查询、6.3 列子查询、6.4 行子查询、6.5 表子查询

2023-07-07 19:31:58 913

原创 MySQL数据库总结之约束（restraint） & 外键约束

延续高质量文章。

2023-07-03 20:54:55 374

原创 MySQL数据库总结之函数命令总结

MySQL命令语句中的函数包含四种：字符串函数、数值函数、日期函数和流程函数

2023-06-29 20:16:16 500

原创 MySQL数据库 && SQL语言命令总结 && 数据类型、运算符和聚合函数汇总

数据库：存储数据的仓库，有组织的进行存储数据。SQL：操作关系型数据库的编程语言，定义了一套操作关系型数据库统一标准。常用的关系型数据库管理系统：Oracle、MySQL、Microsoft SQL Server等。Oracle是大型收费数据库；MySQL是中小型数据库，有免费的社区版本。本文章为了方便快捷的查看SQL命令，先汇总所有SQL命令，然后再依次进行举例说明。

2023-06-28 19:27:57 599

原创从0到1 && 关于MySQL的数据库和表

一篇高质量文章。

2023-06-28 10:12:16 313

原创论文精读 && BlazePose结合LSTM && 跌倒检测

Fall Detection for Shipboard Seafarers Based on Optimized BlazePose and LSTM本博客通过全文翻译和总结的方式对论文进行精读。读完此论文颇受启发，比如：视频中的时间序列问题，文章简单明了的整体脉络，数据集的制作方式和表格描述法，实验证明模型的广泛性，整篇文章一直在强调现如今存在的问题和相应的解决方案。本研究提出的BlazePose–LSTM海员跌倒检测算法在实际船舶海员跌倒检测中具有良好的泛化能力。

2023-06-22 17:53:44 1389

原创基于Transformer的DETR的注意力权重可视化，非CAM可视化技术

神经网络的可视化可以客观的解释“黑盒” ，所以一直以来都是论文中必不可少的工作。对于深度卷积神经网络，一般用CAM进行可视化研究。遗憾的是，基于Transformer的神经网络可视化，CAM并不奏效。所以，本文章提供一套基于DETR的可视化代码。注意：本文章为了贯彻简洁高效的思想，没有对源代码做任何的改动，仅仅添加了两个py文件对图像进行检测和可视化操作。

2023-05-03 17:05:41 2377 13

原创 LeetCode刷题总结 && 每五题汇总（一）

一些算法题的总结，部分是自己所写，部分是官网所提供的答案；关于刷题，虽然数量很重要，但是重点在于刷题质量和解题方法的总结；撰写笔记于此，每一题都有思路总结和注释引导，希望对你有所帮助。一、两数之和二、回文数三、罗马数字转整数四、最长公共前缀五、有效的括号分析题干：左括号和右括号的匹配问题，特殊例子：( [ ] ) { }、{ [ ( ) ] } 正确，( [ ) ] ( ) 错误；返回值：返回bool值，全部匹配成功，返回ture，反之返回false；解题：利用 "栈" 的特点匹配

2023-03-14 14:24:10 443

原创 Python项目Bug解决 && 陆续更新

问题一：MySQL开机自启动失败Solution 1.Solution 2.问题二：使用python操作exe文件，实现 "开机自启动" 功能Solution 1.Solution 2.问题三：待更新。。。检查计算机服务中，是否设置MySQL自动启动，并确保MySQL状态为正在运行。开机时，可能因为某种原因，MySQL启动的时候较长，从而被系统强制停止。所以需要在注册表中设置《服务启动限制时长》，具体操作步骤如下：

2023-03-13 15:11:33 311

原创 MediaPipe之人体关键点检测＞＞＞BlazePose论文精度

我们提出了BlazePose，一种用于人体姿态估计的轻量级卷积神经网络架构，用于在移动设备上进行实时推理。在推理过程中，该网络为单个人生成33个身体关键点，并在Pixel2手机上以每秒30帧以上的速度运行。这使得它特别适合实时用例图，如健身跟踪和手语识别。我们的主要贡献包括一个新颖的身体姿态跟踪解决方案和一个轻量级的身体姿态估计神经网络，它同时使用了热图(heatmap)和对关键点坐标的回归。从图像或视频中进行人体姿态估计在各种应用中起着核心作用，如健康跟踪、手语识别和手势控制。

2023-02-10 17:10:45 3655 2

原创 Faster RCNN精读

最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet和Fast R- CNN等技术的进步降低了这些检测网络的运行时间，使得区域推荐计算成为瓶颈。在这项工作中，我们引入了一个区域建议网络( RPN )，它与检测网络共享全图像卷积特征，从而实现了几乎无成本的区域建议。RPN是一个全卷积网络，它同时预测每个位置的对象边界和对象得分。RPN经过端到端的训练，生成高质量的区域提案，供Fast R-CNN用于检测。

2022-12-11 22:46:06 732

原创 2022年12月 && Faster RCNN训练自己的数据集 && 配置环境相对简洁

以往的大多数教程都是数年前的Faster RCNN源码，因为旧环境和现有环境的不同，导致环境配置方面出现一系列问题。特别是利用setup.py或者make.sh配置所需的环境时，遇到并解决一个又一个的问题，遗憾的是，失败总是贯彻全局。解决方案：找到近年的Faster RCNN源码，观察是否需要setup.py，作为一个Lucky Boy，在此分享我的操作流程。

2022-12-01 20:33:18 1867 2

原创计算模型的GFLOPs和参数量 & 举例VGG16和DETR

近期忙于写论文，分享一下论文中表格数据的计算方法。FLOPS：注意S是大写，是“每秒所执行的浮点运算次数”（floating-point operations per second）的缩写。它常被用来估算电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S，代表秒，而不是复数，所以不能省略掉。FLOPs：注意s小写，是floating point operations的缩写（s表复数），意指浮点运算数，理解为计算量。可以用来衡量算法/模型的复杂度。GFLOPs：一个

2022-10-18 21:13:17 14935 16

原创图解 cv2.HoughLines & cv2.line 参数原理

利用cv.HoughLines寻找图像中霍夫直线，并用cv2.line绘制红色直线。拓展：计算整幅图像的平均灰度值，以及经过筛选的霍夫直线所有像素的平均灰度值。lines = cv2.HoughLines(image_edge, 1, np.pi/180, 180)image_edge：经过图像边缘处理后的图像1：像素之间的距离为1np.pi/180：直线角度范围，2pi/(pi/180) = 360°180：一条预选直线上的最少像素点个数

2022-09-02 15:28:07 7306 9

原创 YOLO 系列论文精读 & YOLOv4

YOLO系列的论文已经告一段落，期间也精读了DETR系列的一些论文，颇有感受。YOLOv4更像是一篇总结性的文章，具体描述了整个模型的各个阶段，并对每个阶段的经典算法进行了研究和消融实验，值得我们重新思考神经网络模型的框架。我们提供了一个最先进的探测器，它比所有可用的替代探测器更快( FPS )和更准确的( MS COCO AP50 ... 95和AP50)。所描述的探测器可以在具有8 - 16GB - VRAM的传统GPU上训练和使用，这使得它的广泛应用成为可能。...

2022-08-25 21:34:50 2037

原创 YOLOv3 论文精读

我们对YOLO做了一些更新！我们做了一堆小的设计变更，使其变得更好。我们还训练了这个非常庞大的新网络。它比上次大一点，但更准确。不过还是很快的，不用担心。在320 × 320时，YOLOv3在22 ms内以28.2 mAP运行，与SSD一样精确，但速度快3倍。当我们查看旧的0.5 IOU的mAP检测度量YOLOv3是相当不错的。在Titan X上，它在51ms内达到 57.9，而RetinaNet在198ms内达到 57.5，性能相似，但速度快3.8倍。

2022-08-19 16:09:27 5473 2

原创关于视频流读取失败的时间问题解决 & 利用修饰符进行限时操作

项目中涉及读取视频流部分，但是读取视频流有时不是很顺利，总会导致软件的卡顿，现把解决此问题的心得分享给大家~@func_set_timeout() 装饰器的作用：如果修饰的函数在规定时间内没有运行成功，便会直接报错，如下面的代码的报错截图所示。融入到项目中，需要加入容错步骤（try），即如果 try 中的代码报错，Pycharm会直接跳过这部分代码，继续执行剩余部分的代码。...

2022-08-18 21:10:34 1698 4

原创 Transformer 综述 & Transformers in Vision: A Survey

来自自然语言任务的Transformer模型的惊人结果引起了视觉界的兴趣，他们研究了它们在计算机视觉问题中的应用。与长短期记忆( Long short-term memory，LSTM )等循环网络相比，Transformer能够建模输入序列元素之间的长依赖关系，并支持序列的并行处理。与卷积网络不同，Transformer在设计时要求最小的电感偏差，并且作为集合函数自然适用。......

2022-08-18 19:49:12 1863

原创 Sparse R-CNN 论文精读

文章的创新点：首次提出动态实例交互头：在迭代结构中，结合线性投影、矩阵乘法、归一化和ReLU激活函数对输入的提议框和提议特征进行一系列操作，最终得到叠加的学习特征。剔除NMS，选用DETR中的匈牙利匹配优化Sparse：提议特征默认选用100个，比以往的传统CNN的手工预选框少了几十倍主要结合Fast R-CNN、DETR和Deformer DETR构造的框架...

2022-08-15 19:59:06 2869 2

原创 Efficient DETR 论文精读

最近提出的端到端转换器(如DETR和Deformable DETR )具有堆叠 6 个解码器层的级联结构，可以迭代地更新对象查询，否则它们的性能会严重下降。在本文中，我们研究对象容器的随机初始化，包括对象查询和参考点，主要负责多次迭代的需求。基于我们的发现，我们提出了高效的DETR，一个简单高效的端到端目标检测 pipeline。通过利用密集检测和稀疏集检测的优势，高效DETR在初始化对象容器之前利用密集检测，带来1 -解码器结构和6 -解码器结构的差距。...

2022-08-13 20:17:59 3258 7

原创 DAB DETR 论文精度，并解析其模型结构

在本文中，我们提出了一种新的使用动态锚框的DETR ( DEtect TRansformer )查询公式，并对DETR中查询的作用有了更深入的理解。这个新的公式直接使用方框坐标作为Transformer解码器中的查询，并逐层动态更新它们。使用 box 坐标不仅有助于使用显式的位置先验( x, y )来提高查询到特征的相似度，并消除DETR中的缓慢训练收敛问题，而且还允许我们使用 box 宽度和高度信息来调整位置注意力图。...

2022-08-12 17:51:33 2072

原创 Swin Transformer 论文精读，并解析其模型结构

计算机视觉的建模从AlexNet在ImageNet分类挑战的良好表现开始，然后到目标检测的SSD、RCNN、YOLO等模型，一直由CNN主导。直到NLP领域中Transformer的崛起，并经ViT应用到视觉领域后，我们感受到了Transformer全局建模的强大之处。如摘要所述，图像喂入Transformer的计算复杂度远远高于语言的输入，故SwinTransformer诞生了，接下来通过精读此论文揭晓Swin的创新思想。一、摘要，以及图像中像素相对于文本中单词的。hifted二、结论。...

2022-08-02 10:06:58 3664 4

原创 ACmix 论文精读，并解析其模型结构

卷积和自注意力是两种强大的表示学习技术，通常被认为是两种不同的对等方法。在本文中，我们证明了它们之间存在着很强的内在联系，即这两种范式的计算量实际上是以相同的运算完成的。具体来说，我们首先证明了一个传统的卷积核大小为k×k，可以分解为k2个单独的1×1卷积，然后进行移位和求和操作。然后，我们将查询、键和值在自注意力模块中的投影解释为多个1×1卷积，然后计算注意力权重和值的聚合。因此，两个模块的第一阶段都包含类似的操作。models。...

2022-07-31 11:18:07 3794 1

原创 DN-DETR 论文精度，并解析其模型结构 & 2022年CVPR论文

DN-DETR通过分析DETR收敛速度慢的其中一个原因是因为二分图匹配的不稳定性，从而提出通过去噪方法来稳定匹配，加速模型的收敛。本文提出了一种新的去噪训练方法来加速DETR(DEtectionTRansformer)训练，并加深了对DETR类方法收敛速度慢问题的理解。我们表明，缓慢的收敛是由于二分图匹配的不稳定性导致在早期训练阶段优化目标不一致。为了解决这个问题，除了匈牙利损失外，我们的方法还将带有噪声的真实边界框输入到Transformer解码器中，并训练模型来重建原始框，...

2022-07-27 20:29:03 2762 5

原创通过公式和源码解析 DETR 中的损失函数 & 匈牙利算法（二分图匹配）

DETR在单次通过解码器时推断一个固定大小的有N个预测的集合，其中N被设置为显著大于图像中典型的物体数量。所有真实框中的每一个框和所有预测框进行匹配，损失值最小的预测框为该真实框的最佳匹配框，当所有真实框遍历完毕后，得到所有唯一匹配的框。完成最优分配，假设有六位老师和六种课程，通过匈牙利算法进行匹配后，每一位老师都会分到不同的一个课程。匹配成功之后，对预测框的分数、类别、中心点坐标和宽高进行损失值的计算。之间的匹配成本并不依赖于预测，这意味着在这种情况下，成本是一个常数。表示有N个预测的集合。...

2022-07-26 16:24:58 8747 9

原创 DINO 论文精度，并解析其模型结构 & DETR 的变体

截止2022年7月25日，DINO是目标检测的SOTA。本人根据源码的复现感受和DINO论文的精读心得，撰写本篇博客，希望对你有所帮助。DINO(DETR with Improved deNoising anchOr boxes)，一款最先进的端到端对象检测器。对比的去噪训练方式；用于锚点初始化的混合查询选择方法；用于框预测的向前两次方案；本文章会对以上三种创新方法逐点击破。使用ResNet-50主干和多尺度特征，DINO在12个epoch获得49.4AP，在24个epoch获得51.3AP（收敛极快！）.

2022-07-25 23:30:16 20416 12

原创 DETR 论文精读，并解析模型结构

我们提出了一种新的方法，将目标检测视为一个直接的集合预测问题。我们的方法精简了检测管道，有效地消除了许多手工设计的组件，如非极大值抑制过程或锚生成，这些组件显式地编码了我们关于任务的先验知识。新框架的主要组成部分，称为DEtectTRansformer或DETR，是一个基于集合的全局损耗，通过二分匹配和一个转换器编码器-解码器架构强制进行唯一的预测。给定一个固定的小规模学习对象查询集，DETR根据对象和全局图像上下文的关系，并行地直接输出最终的预测集。全景分割。我们表明它明显优于竞争性基线。......

2022-07-21 23:44:19 5987 2

关于图解霍夫直线参数文章的visio原图、源图像和py文件

空空如也