cv-daily-CSDN博客

原创 yolov7详解

引进了更为高效的特征提取模块(ELAN)、下采样模块(MP)，不同的空间池化层(SPPCSPC)，重参数卷积(RepConv)参考：https://zhuanlan.zhihu.com/p/590986066。：结合YOLOv5中和正样本匹配方法和YOLOX中的正样本筛选方法(SimOTA)2.4 SPPCSPC模块。2.2 ELAN模块。2.5.2 模块实现。

2024-08-28 16:00:55 633

对于一般的用户来说，ddp多机多卡训练方式已经基本上够用了。然而对于需要进行更大规模训练的人来说，在每个节点上依次运行命令比较繁琐并且容易出错。Slurm 主要的作用在于任务调度，其可以为用户分配计算机节点来执行任务，并且支持任务队列，可以比较高效地分配资源。使用slurm：https://blog.csdn.net/LittleNyima/article/details/136813418。使用ddp：https://blog.51cto.com/u_16213675/9632480。

2024-08-23 16:30:45 543

原创图片标签可视化Supervision 计算机视觉工具库

参考：https://blog.csdn.net/weixin_46105038/article/details/140722342。

2024-08-16 17:38:41 229

原创 transform与位置编码

因为是一次性接收所有token作为输入进行并行处理，“遗忘”的问题没有了、所有的token都一视同仁了、上下文的信息能同时获取到、时间复杂度也降下来了。但是这又出现了新的问题，因为所有token一视同仁了，模型就没有办法知道每个token在句子中的相对和绝对的位置信息，而位置关系对于NLP任务来说是有着决定性影响的。在Transformer出现以前，NLP任务大多是以RNN、LSTM为代表的循环处理方式，即一个token一个token的输入到模型当中。2.句子越靠后的token对结果的影响越大；

2024-08-09 18:35:09 288

原创 GLIP学习

GLIPv2参考：https://blog.csdn.net/jiaoyangwm/article/details/130623815。GLIP参考：https://zhuanlan.zhihu.com/p/638842771。

2024-08-09 16:28:32 308

原创 detr学习

detr和deformable-der的非常好的一篇讲解：https://zhuanlan.zhihu.com/p/700776674。

2024-08-09 11:44:03 316

原创机器视觉相关名词定义

在目标检测中，FPS是衡量模型实时性能的关键指标。GFLOPS衡量的是模型每秒能执行的浮点运算次数，单位是十亿（Giga）次浮点运算。在目标检测模型中，一个模型的GFLOPS越高，表示该模型在硬件上执行运算的能力越强。GFLOPS是衡量算法计算复杂度的指标，通常与模型的参数量和运算量相关。在目标检测模型中，参数量通常指的是模型中可学习参数的总数。参数量是衡量模型复杂度的一个重要指标，它直接影响到模型的存储需求、计算成本以及训练时间。参数量的多少也与模型的容量有关，即模型能够学习的特征信息量。

2024-08-09 10:56:50 373

原创模型重参数化

模型重参数化定义：yoov7。

2024-08-08 18:08:10 152

原创辅助头训练

主体头是giou和分类loss，辅助头可以是软标签，让他的结果与一个大模型结构接近。这样反向传播时影响了主干的参数，最后推理的时候只需要主体头，不会相互影响。1.辅助头训练是一种常用的方法，训练时辅助训练，推理时可以去掉。辅助头的设计loss与主体头的优化目标不一致。辅助头一般有几种：atss等。

2024-08-08 18:07:26 185

原创 swin和vit

在Swin Transformer的特征图中，它是用一个个窗口的形式将特征图分割开的。窗口与窗口之间是没有重叠的。Swin-Transformer所构建的特征图是具有层次性的，很像我们之前将的卷积神经网络那样，随着特征提取层的不断加深，特征图的尺寸是越来越小的（4x、8x、16x下采样）。在ViT模型中，是直接对特征图下采样16倍，在后面的结构中也一致保持这样的下采样规律不变（只有16x下采样，不Swin Transformer那样有多种下采样尺度 -> 这样就导致ViT不能构建出具有层次性的特征图）

2024-08-06 16:40:33 707

原创 Co-Detr

参考：https://www.bilibili.com/video/BV1Sh4y1F7ur/?2.将以上辅助头的输出传到decoder中，作为query。1.在encoder之后加入RPN，atss辅助头。主要修改两个地方：encoder和decoder。加入更多的头，产生更多的loss，更好优化模型。之前的detr正样本数量少，匹配不平衡。

2024-08-04 20:29:23 214

原创 Conditional Detr

encoder和detr相同，只修改了decoder部分。

2024-08-04 19:17:08 229

原创 Deformable Detr

详解可以看李宏毅的transformer视频。

2024-08-04 16:05:25 242

原创 detr论文解读

参考：https://www.bilibili.com/video/BV1md4y1s7nW/?output pos.enc.：输出位置编码。learned at input：只给decoder第一个层位置编码，learned at attention：decoder的每层都给位置编码。loss设计了两种方式，第一种只取decoder最后一层算loss，第二种取decoder每一层算loss。spatial pos.enc.：空间位置编码。q=k=backbone输出的图像特征+位置编码。

2024-08-04 13:29:19 258

原创 Co-Detr解读

总而言之，Co-DETR通过添加辅助头来提高网络的训练精度，仅仅是一种新型的训练方案，并未提出新的网络。为了提高解码器中正样本（positive samples）的训练效率，Co-DETR从辅助头中提取正坐标（positive coordinates）来进行额外定制的正查询（positive queries）。Co-DETR发现DETR及其变体网络是一对一标签分配，指出了其中的问题，随之提出一对多标签分配监督多个并行辅助头的方法。辅助头只在训练过程中使用，推断过程中被丢弃，只使用源网络进行推断。

2024-08-02 18:54:00 369

原创 Swin Transformer和vit

Swin Transformer最为关键的设计在于连续自注意力层间，特征图上的窗划分口实现了半个窗宽的移动。这使得前一层的窗口间可以实现交互和联系，大幅度提升了模型的表达能力。同时在同一窗口内的查询都拥有相同的key序列，使得硬件内存更容易实现大大提升了模型运行的速度，降低延时。

2024-08-01 17:16:17 260

原创 transform详解

transform的attention也是需要用权重代表重要程度，输入*权重=输出，再用输出和label计算loss，transform的权重是通过自注意力机制（Q，K，V）计算得到的。transformer：输入，位置编码，编码器（attention，前馈网络），解码器（attention，前馈网络，mask），loss，反向传播，优化器。通过embedding层得到三个token的embedding，假定分别为：[1, 0, 1, 0]，[0, 2, 0, 2]，[1, 1, 1, 1]

2024-08-01 16:37:11 2031

原创为什么现在的LLM都是Decoder only的架构？

参考：https://www.zhihu.com/question/588325646/answer/3357252612。

2024-08-01 15:19:14 355

原创 AP（Average Precision）、APr（AP at Recall）、APc（AP for Common Classes）和APf（AP for Frequent Classes）定义

总结来说，AP、APr、APc和APf都是用于评估目标检测模型性能的重要指标，但它们分别关注不同的方面：AP关注整体平均精度，APr关注不同召回率下的平均精度，APc和APf则分别关注常见类和频繁类别的检测性能。APr指的是在不同召回率下的平均精确率。具体来说，APr是在不同召回率水平下计算出的AP值的平均值，这有助于了解模型在高召回率情况下的表现。AP的计算通常会根据不同的IoU（交并比）阈值进行，例如50%、75%等，并对每个阈值下的精确率进行平均，以得到最终的AP值。APc是针对常见类别的平均精度。

2024-07-31 11:35:36 1596

原创 yolo world 中文翻译

摘要You Only Look Once (YOLO) 系列检测器已成为高效实用的工具。然而，它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制，我们引入了 YOLO-World，这是一种创新方法，通过视觉语言建模和大规模数据集的预训练来增强 YOLO 的开放词汇检测功能。具体来说，我们提出了一种新的可重新参数化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。我们的方法擅长以零样本的方式高效地检测各种物体。

2024-07-31 10:10:42 704

原创 VQA（视觉问答）数据集

VQAV1论文：VQA: Visual Question Answering。

2024-07-30 17:12:15 653

原创大模型llm榜单

为了应对这一挑战，Open LLM Leaderboard采取了一项举措，它利用Eleuther AI的语言模型评估工具，针对六个核心任务对各模型进行严格的基准测试：包括AI2推理挑战、HellaSwag、MMLU（多项选择常识推理）、TruthfulQA（诚实性问答）、Winogrande以及GSM8k（数学问题理解）。对于用户而言，关键模型的性能可以通过灵活多样的API接口轻松查询，实时提供最新且具有针对性的性能对比信息，助力决策者和研究人员快速把握模型间的性能差异，指导技术选型与研究方向。

2024-07-30 10:21:24 1262

原创大模型测评

在人工智能领域，大语言模型已经成为了技术创新的重要驱动力。OpenCompass 升级版大语言模型评测工具：提供全面的大模型评测功能，包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。OpenCompass 推出大模型评测全栈工具链 CompassKit，不仅提供完整的开源可复现评测代码，更提供了丰富的模型支持和高效的分布式评测策略。VLMEvalKit 多模态大模型评测工具：一站式多模态评测工具，支持主流多模态模型和数据集，助力社区比较不同多模态模型在各种任务上的性能。

2024-07-29 18:22:01 375

原创 InternVL

新一代“书生·视觉基础”模型的视觉编码器参数量达 60 亿（InternVL-6B），首次提出对比-生成融合的渐进式对齐技术，实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。上海 AI 实验室在视觉大模型上持续发力，在 2021 年、2022 年先后推出书生 1.0 和 InternImage，不仅及模型性能领先，还构建了视觉大模型的新架构。InternVL-6B 不仅能处理复杂图片中细微的视觉信息并完成图生文任务，还可以识别和解读复杂页面中的信息，甚至解决其中的数理问题。

2024-07-19 11:05:19 380

原创视频跟踪Track Anything Model

pc_search_result_base6&utm_term=davis2016指标是什么&spm=1018.2226.3001.4187。devis使用和评价：官方评价api。官方github：有代码和相关案例。评价指标：相关细节补充。xmem文献：原始文献。tam文献：原始文献。

2024-07-19 10:52:01 194

原创深度估计模型Depth Anything 相关链接

抱抱脸的api：测试太大的图不行（1000*1000左右就不行），资源占用比较多。midas文献：大牛学者作品，引用较多，很好用的方法，但是没有开源。官方代码：github源码，代码还有一些bug，需要自行修改。dinov2源码：github代码，有相关演示内容。depth anything文献：原始文献。dinov2文献：很强大的基础模型。

2024-07-19 10:37:59 388

原创 Zero-shot通俗理解

例如，如果我们告诉模型“猫”是一种小型、有毛、四足、会喵喵叫的动物，而“鹰”是一种大型、有羽毛、两足、会飞翔的动物，即使模型从未见过这两种动物，它也可以通过这些描述来区分新的猫和鹰的图片。Zero-shot学习（Zero-shot Learning，ZSL）是深度学习领域中的一个重要研究方向，它旨在让机器学习模型能够在没有见过特定类别样本的情况下，对该类别进行识别或分类。Zero-shot学习的目标是让模型能够在只有有限类别训练数据的情况下，识别出新的、未见过的类别。Zero-shot的应用。

2024-07-19 10:31:29 596

原创 DINOv2相关链接

copy detection pipeline文献：相关引用，可以用于全目标数据，重点研究！dinov2文献：原始文献，第二部分有很多自监督、弱监督相关引用，需要挑选并研究。相关说明2：解释了一些细节，而且有一些分析讨论，还有一个类似数据处理库相关教程。dinov2-retrieval工具：可以实现dinov2中数据查找，需要测试。fsdp相关介绍：初步了解，可能用于训练加速。ibot文献：相关引用，核心技术之一。swav文献：相关引用，核心技术之一。相关说明1：解释了一些细节。dino文献：原始文献。

2024-07-19 10:20:13 499

原创 sam相关链接

sam医学方面应用：在医学方面使用，如何微调，怎么适配具体任务、数据等。sam细节：非常全面，把每一步的张量维度都说清楚了，便于理解。sam细节2 ：相关细节补充，文中的vit是原始版本的。point位置信息引用文献：暂时没有研究，关键技术之一。sam相关实验指标：总结的不错。分析和讨论：有的内容、分析很不错。官方demo：可以做一些测试。代码解读：重点标记。

2024-07-18 16:58:07 189

原创目标检测正负样本分配策略----ATSS

表示适合GT的FPN层数，标准差高则表示高质量的anchor box集中在一个层中，应将阈值加上标准差来过滤其他层的anchor box，低则表示多个层都适合该GT，将阈值加上标准差来选择合适的层的anchor box，均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的anchor box。表示预设的anchor与GT的匹配程度，均值高则应当提高阈值来调整正样本，均值低则应当降低阈值来调整正样本。2.计算每个候选正样本和groundtruth之间的IOU，计算这组IOU的均值和方差。

2024-01-11 18:43:29 1007

原创 TypeError: Model.forward() missing 1 required positional argument: ‘x‘解决方法

分析是只有1个gpu获得了数据。改成dump_image = torch.zeros((2, 3, imgsz, imgsz), device=device)就能用2个gpu了。网上搜索都是说减少gpu个数，试了1个gpu可以运行，多个的时候就不能运行，但这并没有解决问题。

2024-01-03 18:58:40 2097

原创正负样本分配策略simOTA

在目标检测中，有时候经常会出现一些模棱两可的anchor，如图3，即某一个anchor，按照正样本匹配规则，会匹配到两个gt，而retinanet这样基于IoU分配是会把anchor分配给IoU最大的gt，而OTA作者认为，将模糊的anchor分配给任何gt或背景都会对其他gt的梯度造成不利影响，因此，对模糊anchor样本的分配是特殊的，除了局部视图之外还需要其他信息。减少了参数量和GFLOPs，使速度更快，且表现更好。①使用anchor时，为了调优模型，需要对数据聚类分析，确定最优锚点，缺乏泛化性。

2024-01-03 16:35:38 1569

空空如也

空空如也