多模态
文章平均质量分 94
呆呆的猫
爱发呆 爱抹茶 一直在路上
展开
-
【多模态】28、LLaVA 第一版 | Visual Instruction Tuning 多模态模型的指令微调
本文主要介绍 LLaVA 第一版模型原创 2024-02-29 17:31:15 · 1581 阅读 · 1 评论 -
【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务(OCR等)上的效果
本文主要介绍多模态模型 Vary原创 2024-02-06 18:38:41 · 1468 阅读 · 0 评论 -
【多模态】26、视觉-文本多模态任务超详细介绍 「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」
本文主要介绍典型的图文多模态任务原创 2023-08-20 21:45:38 · 3685 阅读 · 1 评论 -
【多模态】25、ViLT | 轻量级多模态预训练模型(ICML2021)
本文主要介绍 ICML2021 ViLT原创 2023-08-12 18:14:02 · 1134 阅读 · 0 评论 -
【多模态】24、开放词汇学习到底是什么?
本文主要介绍开放词汇学习原创 2023-08-08 17:18:51 · 2020 阅读 · 0 评论 -
【多模态】23、RO-ViT | 基于 Transformer 的开放词汇目标检测(CVPR2023)
本文主要介绍 RO-ViT原创 2023-07-31 18:53:20 · 997 阅读 · 0 评论 -
【多模态】22、UniDetector | 检测开放世界中的一切!(CVPR2023)
本文主要介绍 CVPR2023 开放世界目标检测方法 UniDetector原创 2023-07-31 00:00:41 · 1392 阅读 · 0 评论 -
【多模态】21、BARON | 通过引入大量 regions 来提升模型开放词汇目标检测能力(CVPR2021)
本文主要介绍 BARON原创 2023-07-30 18:12:47 · 1062 阅读 · 0 评论 -
【多模态】20、OVR-CNN | 使用 caption 来实现开放词汇目标检测
本文主要介绍 CVPR2021 开放词汇目标检测方法 OVR-CNN原创 2023-07-30 13:17:28 · 1316 阅读 · 0 评论 -
【多模态】19、RegionCLIP | 基于 Region 来实现视觉语言模型预训练
本文主要介绍 RegionCLIP原创 2023-07-28 17:32:26 · 2674 阅读 · 3 评论 -
【多模态】18、ViLD | 通过对视觉和语言知识蒸馏来实现开集目标检测(ICLR2022)
本文主要介绍 ViLD原创 2023-07-28 10:41:16 · 2201 阅读 · 1 评论 -
【多模态】17、CORA | 将 CLIP 使用到开集目标检测
本文主要介绍 CORA原创 2023-07-23 14:50:05 · 2257 阅读 · 0 评论 -
【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测
代码:无。。。出处:NIPS2022 | 华为诺亚方舟 | 中山大学 | 香港科技大学。原创 2023-07-23 13:19:23 · 1412 阅读 · 0 评论 -
【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM
本文主要介绍 MobileSAM原创 2023-06-27 23:39:13 · 1133 阅读 · 2 评论 -
【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM
本文主要介绍 segment anything原创 2023-04-08 16:35:52 · 6214 阅读 · 7 评论 -
【多模态】13、Vision-Language 模型在视觉任务中的调研
本文主要介绍了 vision-language 模型在视觉任务中的使用原创 2023-06-17 18:49:03 · 1358 阅读 · 1 评论 -
【多模态】12、MM-OVOD | 同时使用文本示例和图像示例来指导分类
本文主要介绍多模态提示分类器 MM-OVOD原创 2023-06-22 12:25:25 · 642 阅读 · 0 评论 -
【多模态】11、Grounding DINO | 将 DINO 扩展到开集目标检测
本文主要介绍开集目标检测方法 Grounding DINO原创 2023-06-10 22:30:29 · 3429 阅读 · 3 评论 -
【多模态】10、GLIPv2 | 在 GLIP 上扩展 negative phrase 并新增分割功能
本文主要介绍 GLIPv2原创 2023-06-05 19:24:45 · 1638 阅读 · 0 评论 -
【多模态】9、GLIP | 首次将 object detection 重建为 phrase grounding 任务
本文主要介绍 GLIP原创 2023-06-05 19:24:10 · 3100 阅读 · 7 评论 -
【多模态】8、MDETR | LeCun 团队于 2021 年推出的端到端多模态理解模型
本文主要介绍 ICCV2021 Oral 文章 MDETR原创 2023-05-20 23:39:11 · 507 阅读 · 0 评论 -
【多模态】7、DINO | 针对 DETR-like 检测器的提升
本文主要介绍 DINO原创 2023-06-05 19:21:30 · 865 阅读 · 0 评论 -
【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练
本文主要介绍 BLIP-2原创 2023-04-11 22:37:45 · 9505 阅读 · 4 评论 -
【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述
本文主要介绍 BLIP 模型原创 2023-04-09 21:41:02 · 1993 阅读 · 0 评论 -
【多模态】4、Chinese CLIP | 专为中文图文匹配设计
本文主要介绍 Chinese CLIP原创 2023-05-20 09:18:45 · 5071 阅读 · 0 评论 -
【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型
本文主要介绍 CLIP 模型原创 2023-04-08 23:43:48 · 2831 阅读 · 0 评论 -
【多模态】2、NLTK | 自然语言处理工具包简介
本文主要介绍 nltk 库的使用原创 2023-07-17 19:14:07 · 1270 阅读 · 0 评论 -
【多模态】1、几种多模态 vision-language 任务和数据集介绍
本文主要介绍几种多模态的基础任务原创 2023-07-17 19:10:07 · 2375 阅读 · 1 评论