文章
文章平均质量分 93
深山里的小白羊
这个作者很懒,什么都没留下…
展开
-
阿里猫头鹰多模态大模型 mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
这篇文章介绍了一项关于多模态大型语言模型 (Multi-modal Large Language Model, MLLM) 的研究工作,提出了一个名为 mPLUG-Owl2 的模型。mPLUG-Owl2 利用模态协作 (modality collaboration) 来提高在文本和多模态任务上的性能。具体来说,mPLUG-Owl2 使用了一个模块化的网络设计,其中语言解码器作为统一接口来管理不同模态的信号。它结合了共享功能模块以促进模态协作,并引入了一个模态自适应模块来保留模态特定特征。原创 2023-12-14 23:37:06 · 2182 阅读 · 0 评论 -
MQ-Det: Multi-modal Queried Object Detection in the Wild
这篇文章提出了MQ-Det,一种高效的架构和预训练策略,用于利用文本描述的开放集泛化能力和视觉示例的丰富描述粒度作为类别查询,即多模态查询目标检测。MQ-Det将视觉查询融入现有的仅基于语言查询的检测器。文章提出了一个即插即用的门控类可扩展感知器(GCP)模块,用于在冻结检测器上增强类别文本与类别相关的视觉信息。为了解决由于冻结检测器带来的学习惯性问题,提出了一种视觉条件的掩码语言预测策略。MQ-Det的简单而有效的架构和训练策略与大多数基于语言查询的目标检测器兼容,从而实现多种应用。原创 2023-12-11 23:27:18 · 1728 阅读 · 0 评论 -
ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language
最近,通过视觉语言预训练进行的开放词汇图像分类取得了令人难以置信的成就,该模型可以对任意类别进行分类,而无需看到该类别的附加注释图像。然而,目前尚不清楚如何使开放式词汇识别在更广泛的视觉问题上发挥作用。本文以开放式词汇语义分割为目标,将其建立在现成的预先训练的视觉语言模型(即CLIP)上。然而,语义分割和CLIP模型在不同的视觉粒度上执行,即语义分割在像素上执行,而CLIP在图像上执行。原创 2023-05-14 15:50:10 · 570 阅读 · 1 评论 -
多模态大模型的发展、挑战与应用
随着 AlexNet [1] 的出现,过去十年里深度学习得到了快速的发展,而卷积神经网络也从 AlexNet 逐步发展到了 VGG [2]、ResNet [3]、DenseNet [4]、HRNet [5] 等更深的网络结构。研究者们发现,网络越深模型的性能越好。然而,经过多年的发展,研究者们逐渐触碰到了卷积神经网络的极限,而其规模也只发展到了千万到亿的数量级,例如 ResNet-152 的参数量大约为 60 Million (M),HRNet_W64 大约为 128M。原创 2023-04-16 19:45:18 · 9013 阅读 · 2 评论 -
U-RISC 电镜图像神经元分割 第四名解决方案
适用于精细结构的语义分割网络摘要电子显微镜(EM)是一种广泛使用的技术,用于获取神经组织的高分辨率图像,以可视化神经元结构,如化学突触和囊泡。为了获得组织更精细的结构,超高分辨率的电镜图像已经越来越常见,但如何对这些图像进行有效的分割却是一个挑战。由于显存的限制,直接将原始图像输入网络进行训练是不允许的,而将图像裁剪成一堆小块进行训练又会损失图像的全局信息。如果直接将图像进行下采样然后再进行训...原创 2020-02-21 03:30:25 · 3164 阅读 · 19 评论