辣辣爱学习吆-CSDN博客

原创【论文解读】LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large

训练目标是让图像整体（整张图）和对应的文本（如一句描述）之间进行对齐。比如：“A dog playing with a ball.” ←→ 图像整图它并不区分图中具体哪一块区域是“dog”，哪块是“ball”。这就是所谓的图像级目标，也称为“图文对齐而非区域对齐”。

2025-05-07 14:59:59 694

原创【论文解读】YOLO-World: Real-Time Open-Vocabulary Object Detection

方向QueryKey/Value输出作用图像特征文本加权图像表示引导视觉关注文本语义区域文本图像 Patch加权文本表示增强文本的视觉感知能力📌 I-Pooling Attention 实现了图像与文本的双向交互式建模，提升视觉-语言对齐与感知能力。why?原始文本向量 W 是 CLIP 离线编码而成的；可能缺少目标图像中实际存在的上下文信息；

2025-04-29 16:39:43 983

原创【小白教程】本地部署VLM-R1模型（使用Docker）

通过Docker本地部署VLM-R1大模型，详细教程。

2025-04-21 20:19:54 1852

原创 IoU、Confidence和NMS区别

IoU 是用于衡量两个边界框（bounding boxes）重叠程度的指标。具体来说，它是两个框的交集（Intersection）区域面积与它们的并集（Union）区域面积之比。Confidence 是目标检测模型在预测一个边界框时，对于该框包含某个目标的信心度。它表示模型对某个框内是否包含目标的置信度评分，通常以一个 0 到 1 之间的数字表示。NMS 是一种常用的后处理方法，用于去除冗余的框。

2025-04-21 17:05:14 787

原创 PyCharm注释【TODO+文档注释+块注释】

pycharm注释详解

2025-04-21 11:37:14 695

原创如何在 Git 中同步原始仓库的更新（含 Fork 和非 Fork 方法）

将本地提交推送到远程仓库，进入 GitHub 网站，你会看到有一个提示让你发起 Pull Request（PR），请求将 new-feature 分支的修改合并回 main 分支。你修改完 fork 的项目后，可以通过 PR 请求原作者审阅你的修改，并决定是否将你的更改合并到原项目中。：就像你在 GitHub 上“复制粘贴”了一份项目到你自己的账户里，之后你可以随意修改、创建分支，而不会影响原作者的代码。是你本地的分支名称，通常是主分支（如果你用的是 main，那就是 main）

2025-04-15 21:13:50 1542