想成为PhD的小提琴手-CSDN博客

原创（图文详解）Ubuntu 20.04安装anaconda3&修改用户名&conda：命令未找到问题解决

（图文详解）Ubuntu 20.04安装anaconda3&修改用户名&conda：命令未找到问题解决，亲测有效

2024-10-27 10:32:25 809

原创论文阅读6——VIT：Vision Transformer（包括ViT代码复现）

虽然Transformer架构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合应用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们表明，这种对CNN的依赖是没有必要的，并且直接应用于图像补丁序列的纯Transformer可以在图像分类任务中表现得非常好。

2024-10-16 11:13:27 1525

原创 Python实践——实现视频.mp4转图片.jpg（可成功实现）

输出图片文件夹最好新建在C盘，否则容易出现无法写入等问题，导致无法成功获取每帧图片。指令：pip install opencv-python。视频路径可以存在C盘或者D盘。

2024-10-13 09:55:57 374

原创论文阅读5——CORA：采用CLIP进行开放式词汇检测，结合区域提示和锚点预匹配

开放词汇检测（OVD）是一种对象检测任务，旨在从检测器训练的基本类别之外的新类别中检测对象。最近的OVD方法依赖于大规模视觉语言预训练模型，如CLIP，来识别新对象。我们确定了将这些模型纳入探测器训练时需要解决的两个核心障碍：（1）将在整个图像上训练的VL模型应用于区域识别任务时发生的分布失配；（2）对看不见的类的对象进行本地化的困难。为了克服这些障碍，我们提出了CORA，这是一种DETR风格的框架，通过区域提示和锚点预匹配将CLIP应用于开放词汇检测。

2024-10-09 09:27:38 1334

原创论文阅读4——RegionCLIP:基于区域的语言图像预训练

使用图像-文本对的对比语言-图像预训练(CLIP)在zero-shot和迁移学习设置下的图像分类上都取得了令人印象深刻的结果。然而，我们表明，由于主要的领域转移，直接应用这些模型来识别图像区域进行对象检测会导致不满意的性能:CLIP被训练为将图像作为一个整体与文本描述相匹配，而没有捕获图像区域和文本范围之间的细粒度对齐。为了缓解这一问题，我们提出了一种名为RegionCLIP的新方法，该方法大大扩展了CLIP来学习区域级视觉表示，从而实现图像区域和文本概念之间的细粒度对齐。

2024-10-08 10:32:04 1165

原创论文阅读3——OVD：使用字幕进行开放词汇对象检测

尽管深度神经网络在目标检测中具有显著的准确性，但由于监督要求，它们的训练和扩展成本很高。特别是，学习更多的对象类别通常需要按比例增加边界框注释。弱监督和零样本学习技术已被探索用于在较少监督的情况下将目标探测器扩展到更多类别，但它们并不像监督模型那样成功和广泛采用。在本文中，我们提出了一个新的对象检测问题的公式，即开放词汇对象检测，它比弱监督和零样本方法更通用、更实用、更有效。我们提出了一种新方法，使用边界框注释对有限的一组对象类别以及以显著较低的成本覆盖更多种类对象的图像字幕对来训练对象检测器。

2024-10-04 15:34:51 972

原创论文阅读2——GiT：通过通用语言接口实现通用视觉转换

本文提出了一个简单但有效的框架，称为GiT，仅使用普通ViT即可同时适用于各种视觉任务。受大型语言模型（LLM）中广泛使用的多层Transformer架构（如GPT）的普遍性的启发，我们寻求扩大其范围，作为强大的视觉基础模型（VFM）。然而，与语言建模不同，视觉任务通常需要特定的模块，例如用于检测的边界框头和用于分割的像素解码器，这极大地阻碍了强大的多层变换器在视觉领域的应用。

2024-09-26 17:33:10 888

原创论文阅读1——DiffYOLO：基于YOLO和扩散模型的抗噪目标检测

DiffYOLO结合了YOLO的实时高效检测和DDPM的特征生成能力，提升了在复杂场景中的检测精度和对多尺度目标的适应性，同时在面对噪声和模糊等问题时具有更好的鲁棒性。

2024-09-25 16:37:30 1041 1

原创 Python实践——百度&Google爬取图片数据方法及代码（可成功实现）

以爬取“交通标志”图片为例。

2024-09-23 16:24:45 992

2403_87584552的博客