AI网络学习
文章平均质量分 81
清梦枕星河~
醉后不知天在水,满船清梦压星河~
展开
-
MM-Grounding-DINO的训练推理(待更新)
继前面发布的GroundingDino 和 Open-GroundingDino的推理和Open-GroundingDino的训练实现,作为 GroundingDino延续性的文本检测网络 MM-Grounding-DINO 也发布了较详细的 训练和推理实现教程,而且操作性很强。作为学习内容,也打算整理一下 MM-Grounding-DINO 的推理和训练实现。原创 2024-04-12 15:30:21 · 652 阅读 · 1 评论 -
结合文本的目标检测:Open-GroundingDino训练自己的数据集
是的第三方实现训练流程的代码,因为官方GroundingDino没有提供训练代码,只提供了demo推理代码。Open-GroundingDino的Github网址:要跑起来Open-GroundingDino,需要解决环境安装,数据集制作,网络配置等问题,下面大致从这几个方面进行介绍。原创 2024-04-12 15:07:06 · 3073 阅读 · 12 评论 -
Text-Driven Object Detection 关于结合文本的目标检测
首先说明,本文目的主要是水一篇CSDN博客,顺便说一下和标题相关的认识。近几年,在目标检测领域关于多模态的目标检测工作已成了主流,趋势仍在延续,未来仍有很大挖掘空间。这里说的多模态不是简单的多源数据的多模态,比如不同形式的图像数据等,这里是文本和图像的数据,对标自然语言处理领域和计算机视觉领域。在看了一些结合文本的目标检测的工作后,主要是OVD方向的,总感觉这些网络有些复杂,或许是数据处理上,既需要文本标签,又要文本向量,还要一些特殊的预训练模型,在过程中稍显复杂。原创 2024-04-07 23:26:14 · 1243 阅读 · 0 评论 -
Open-GroundingDino和GroundingDino的推理流程实现
GroundingDino是一个多模态检测模型,可以输入文本提示输出视觉目标的位置,实现了文本和图像的匹配。相比较于一众的OVD算法,GroundingDino在文本处理上的灵活度高,因为大多OVD算法是采用clip文本编码器,这个编码器对文本的处理有限,只能是某些单词,一些特殊的名称在clip的预训练模型中没有对应的文本向量。而GroundingDino及部分采用 bert 的模型,可以处理单词、短语和句子等文本,在数据集迁移上更加友好。原创 2024-04-07 22:16:01 · 1526 阅读 · 1 评论 -
RegionCLIP网络结构解析 Region-based Language-Image Pretraining
主要是关注目标检测方面的工作,现在纯CV已经前景黯淡,即使前段时间的YOLOv9发布也是关注一般。现在大模型已成热点,而大模型要求的数据量和算力和算法复杂度,显然让很多人却步。但是具有大模型特点的多模态算法也算是研究的趋势,所以目前主要是关注多模态方面的目标检测工作。其中目标检测领域,目前和多模态相关的主要是 开集、开放词汇、描述性目标检测以及情景理解等。相关的研究工作已经越来越多,这里权当学习记录。RegionCLIP作为OVD检测算法,也是具有一定的代表性。原创 2024-04-03 20:44:06 · 1071 阅读 · 1 评论 -
CLIP网络结构解析 openai/CLIP (Contrastive Language-Image Pre-Training)
CLIP是openai公司提出的网络,可以处理文本和图像,是一个多模态网络,对多模态的研究具有一定的推动作用。作为学习,记录一下对CLIP的理解。原创 2024-04-03 11:09:59 · 972 阅读 · 0 评论