![](https://img-blog.csdnimg.cn/direct/e2307173f179439cb0c47d53b8cedf7c.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
paper解读
文章平均质量分 94
本专栏旨在探讨人工智能相关的论文,包括目标检测、目标学习、自然语言处理、多模态模型、点云检测等内容。旨在记录论文学习与解读,帮助更多读者快速理解其论文内容与方法。
tangjunjun-owen
从事人工智能行业,已从事工业检测行业、智慧交通行业、智慧城市行业,已有如下经验:
ARM/jetson部署、NVIDIA性能优化、道路感知2D、单目3D、点云3D、目标跟踪、lidar/radar/vison多传感融合、中间件ROS2开发、相机标定、工业2D检测/分类/分割、数据增强、attention、transformer、模型压缩加速
计算机技能:C++、Python、cuda、tensorrt、ros2
展开
-
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks论文解读
我们介绍了Florence-2,这是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。虽然现有的大型视觉模型在迁移学习方面表现优秀,但在执行简单指令的多样化任务方面却存在困难,这表明它们难以处理各种空间层次和语义粒度的复杂性。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果,无论是描述、目标检测、grounding还是分割。这种多任务学习设置需要大规模、高质量的标注数据。原创 2024-07-12 21:45:00 · 603 阅读 · 0 评论 -
T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy论文解读
我们呈现了 T-Rex2,一个高度实用的开放式目标检测模型。先前依赖于文本提示的开放式目标检测方法有效地概括了常见对象的抽象概念,但由于数据稀缺和描述限制,对于罕见或复杂的对象表示而言表现不佳。相反,视觉提示在通过具体的视觉示例描绘新对象方面表现出色,但在传达对象的抽象概念方面不如文本提示那样有效。鉴于文本提示和视觉提示的互补优势和劣势,我们引入了 T-Rex2,通过对比学习将两种提示融合到一个单一模型中。原创 2024-06-06 20:30:00 · 1190 阅读 · 0 评论 -
Enhancing DETR’s Variants through Improved Content Query and Similar Query Aggregation论文解读
查询的设计对于DETR及其变体的性能至关重要。每个查询包含两个部分:内容部分和位置部分。传统上,内容查询初始化为零值或可学习embeding,这缺乏必要的内容信息,导致次优性能。在本文中,我们引入了一个新颖的即插即用模块——自适应内容查询(Self-Adaptive Content Query, SACQ),以解决这一局限性。SACQ模块利用transformer编码器的特征,通过自注意力池化生成内容查询。这让候选查询能够适应输入图像,从而形成更全面的内容先验并更好地聚焦于目标对象。原创 2024-05-28 11:33:59 · 907 阅读 · 0 评论 -
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities论文解读(大模型评估方法)
我们提出了MM-Vet,这是一个评估基准,旨在检验大型多模态模型(LMMs)在复杂多模态任务上的表现。最近的LMMs展示了各种有趣的能力,比如解决写在黑板上的数学问题,推理新闻图片中的事件和名人,以及解释视觉笑话。快速的模型进展给评估基准的开发带来了挑战。问题包括:(1)如何系统地构建和评估复杂的多模态任务;(2)如何设计能够适用于不同问题和答案类型的评估指标;以及(3)如何提供超越简单性能排名的模型洞见。原创 2024-05-16 22:00:00 · 793 阅读 · 0 评论 -
Mamba结构的Demo源码解读
深度神经网络(DNNs)在AI任务中表现卓越,其中传统的多层感知器(MLP)或全连接(FC)层构成基本架构。卷积神经网络(CNNs)通过卷积和池化层处理平移不变数据,循环神经网络(RNNs)处理序列数据。Transformer引入了注意力机制,如自注意力和交叉注意力,解决了局部关系限制,并在NLP和视觉领域表现出色。视觉Transformer核心是其长距离依赖关系和大数据集利用能力,显著提高了图像分析能力。Mamba结合二者能力,强势登场。为此,本文不在介绍复杂推理,而使用代码解读Mamba,并供读者参考。原创 2024-05-08 22:30:00 · 1441 阅读 · 0 评论 -
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models论文解读
具有区域的多模态大模型,除了整体图像理解之外,Groma 还擅长区域级任务,例如区域描述和视觉grounding。此类功能建立在本地化视觉标记化机制的基础上,其中图像输入被分解为感兴趣的区域,然后编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使 Groma 能够理解用户指定的区域输入并将其文本输出转化为图像。此外,为了增强 Groma 的接地聊天能力,我们利用强大的 GPT-4V 和视觉提示技术,策划了一个视觉 grounded的指令数据集。原创 2024-04-25 20:00:00 · 1064 阅读 · 0 评论 -
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models论文解读
随着大型语言模型(LLMs)的快速发展,将多模态输入的强大能力融入视觉语言模型(VLMs)已成为当前模型的核心部分。为了弥合模态鸿沟,已有研究尝试将视觉与LLMs结合,从图像到视频都有涉及。尽管取得了进步,但学术界的努力与GPT-4和Gemini等成熟模型的强大性能之间仍存在显著差距,这些模型是基于大量数据和资源训练的。原创 2024-04-19 14:20:54 · 1263 阅读 · 0 评论 -
Tokenize Anything via Prompting论文解读
随着分割一切的SAM模型基准,紧接着tag一切的RAM模型基准,又紧接着Tokenize Anything via Prompting,提出了一个unified and prompt模型能够同时分割、识别和描述anything。不同与SAM模型,我们目的是视觉prompt构建一个多功能区域表征。为了实现这个,我们使用大量语义分割mask数据(如SA-1B)以及来自有5b参数预训练CLIP模型先验分割信息,训练一个泛化模型。原创 2024-03-02 13:05:38 · 1039 阅读 · 0 评论 -
ReViT: Enhancing Vision Transformers with Attention Residual Connections for Visual Recognition论文解读
今天看了一篇论文,说的是transformer如何解决模型坍塌问题,保留类似VIT模型特征提取的稳定与表达。作者提了一个类似残差方式来解决这个问题。然而,该论文思路比较简洁,我将快速解读这篇论文,并以此记录。摘要:自注意机制VIT在更深层坍塌,导致low-level视觉特征消失。而这样特征有利于图像元素间精确表征与识别,在基于视觉识别系统中增加精确与稳定。原创 2024-02-22 22:03:35 · 1483 阅读 · 1 评论 -
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data论文解读
随着分割一切的SAM模型基准,紧接着tag一切的RAM模型基准,又随着区域token一切的TAM模型基准,迎来了深度估计一切的DAM模型。不错,本文介绍Depth Anything论文,改论文是单目深度估计论文。这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。原创 2024-01-31 21:40:49 · 1190 阅读 · 1 评论 -
EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读
最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。原创 2024-01-13 16:02:54 · 1452 阅读 · 0 评论 -
MS-DETR论文解读
今天,偶然看到MS-DETR论文,以为又有什么高逼格论文诞生了。于是,我想查看一番,改论文讨论原始DETR中使用一对一监督的传统训练过程缺乏对对象检测候选者的直接监督。本文旨在通过混合一对一监督和一对多监督来明确监督候选生成过程,从而提高DETR训练效率。本文最主要贡献在解码decoder实现行一对多监督。实验结果表明,我们的方法优于相关的DETR变体,如DN-DETR、Hybrid DETR和Group DETR,并且与相关DETR变体的组合进一步提高了性能。本博客将带领读者共同探讨此文章。原创 2024-01-10 22:04:08 · 1107 阅读 · 0 评论 -
Video-GroundingDino论文解读
之前我在博客介绍了一篇grounding DINO文章,该篇文章只是用于图像定位检测的open-vocabulary内容。最近,偶然看到一篇video grounding DINO文章,该篇文章解决视频相关定位,视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。直白说,作者使用时空方式实现视频open-vocablary任务。我将在本博客分享我的见解,若有错误之处,欢迎指正。原创 2024-01-07 14:26:57 · 1496 阅读 · 0 评论 -
DETR++: Taming Your Multi-Scale Detection Transformer论文解读
今天查看了一篇DETR++论文,本想网络上找博客大概浏览一下,不料网上对DETR++资料较少。无奈,我只有自己查看原文,了解其方法。为此,本篇博客将介绍DETR++论文内容,也希望我的解读会快速让朋友们了解其论文方法。论文链接:https://arxiv.org/pdf/2206.02977v1.pdf自从AlexNet在图像分类网络出现,目标检测使用CNN结构已占主导地位。随着transformer在自然邻域广泛使用,Carmethod引入DETR来处理目标检测。原创 2023-12-23 16:46:36 · 970 阅读 · 1 评论 -
RTDETR论文快速理解和代码快速实现(训练与预测)
最近,我们想比较基于DETR的transformer模型与基于CNN的yolo模型效果,而百度RT-DETR模型声称“在实时目标检测领域打败YOLO”。从数据的角度来看,RT-DETR似乎确实在某些方面超越了YOLO。我选择RT-DETR模型与YOLO模型比较。本篇文章将介绍RT-DETR模型原理–>环境安装–>数据准备–>训练实现–>预测实现。近期,端到端基于transformer检测器DETRs已有显著性能。然而,DETR的计算成本限制其实际应用,也阻止其无后处理的优势(如:NMS)。原创 2023-12-20 22:24:25 · 4137 阅读 · 0 评论 -
PEFD-多投影蒸馏详细论文与代码解读(Improved Feature Distillation via Projector Ensemble)
昨日看到蒸馏一篇蒸馏论文PEFD文章,论文提到特征蒸馏方法,本着好奇与疑问,于是我读了,有一些启示。为此,我将记录于此,改论文重点提出投影projector帮助学生模型特征空间转换,说是缓解overvit教师,我个人认为有点借助projector作为缓冲(像辅助教师)。既然读了,我将写下论文主要内容,并结合论文代码深入解读。先前特征蒸馏方法主要聚焦在loss函数设计和distilled layers的links,很少研究会使用projector。原创 2023-08-11 13:46:23 · 451 阅读 · 0 评论 -
Grounding DINO、TAG2TEXT、RAM、RAM++论文解读
随着SAM模型分割一切大火之后,又有RAM模型识别一切,RAM模型由来可有三篇模型构成,TAG2TEXT为首篇将tag引入VL模型中,由tagging、generation、alignment分支构成,随后才是RAM模型,主要借助CLIP模型辅助与annotation处理trick,由tagging、generation分支构成,最后才是RAM++模型,该模型引入semantic concepts到图像tagging训练框架,RAM++模型能够利用图像-标签-文本三者之间的关系,整合image-text a原创 2023-12-09 23:18:29 · 1094 阅读 · 2 评论 -
COGVLM论文解读(COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS)
2023年5月18日清华&智谱AI发布并开源VisualGLM-6B以来,清华KEG&智谱AI潜心打磨,又开发并开源了更加强大的多模态大模型CogVLM。CogVLM基于对视觉和语言信息之间融合的理解,是一种新的视觉语言基础模型。CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,替换以往浅融合模式,使用重要的视觉专家模块。为此,我在阅读了论文后做出该论文解读内容,能帮助更多读者学习。点击这里点击这里点击这里点击这里。原创 2023-11-29 23:14:53 · 796 阅读 · 0 评论