图像分割HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

论文作者:Tao Wang,Changxu Cheng,Lingfeng Wang,Senda Chen,Wuyue Zhao

作者单位:Uni-Ubi ;Zhejiang University;Tongji University

论文链接:http://arxiv.org/abs/2503.13026v1

内容简介:

1)方向:图像分割

2)应用:图像分割

3)背景:随着大规模多模态模型的出色表现,图像分割社区开始关注如何借助LMMs提高分割能力。目前的LMM驱动分割方法通常使用物体边界点表示掩膜或引入特殊的分割标记,这些标记的隐藏状态由分割模型解码,且需要原始图像作为输入。然而,这些方法往往存在掩膜表示不足和架构复杂的问题,限制了LMMs的潜力。

4)方法:为了克服现有方法的局限,本文提出了分层掩膜标记器(HiMTok),该方法通过最多32个标记表示分割掩膜,并在去标记化过程中无需原始图像。HiMTok支持紧凑的粗到细的掩膜表示,与LMM的下一个标记预测范式高度契合,有效地实现了分割能力的直接获取。此外,开发了一种三阶段训练方案,逐步学习分割和视觉能力,并采用分层掩膜损失进行有效的粗到细学习。此外,该方法支持双向信息流动,允许在边界框和掩膜标记之间进行转换,充分利用多任务训练的潜力。

5)结果:广泛的实验表明,HiMTok方法在多个分割任务中实现了最先进的性能,同时还增强了视觉定位能力,并保持了整体的视觉理解能力。

【源码免费下载链接】:https://renmaiwang.cn/s/rpwet 在进行科学计算和数据分析时,使用Python中的Numpy库是必不可少的。Numpy库提供了高性能的多维数组对象和用于处理这些数组的工具,而数组和矩阵是Numpy中两个非常重要的概念。数组(array)是一个通用于各种数值运算的同质数据结构,而矩阵(matrix)则是一种特定的二维数组,用于更专业的数学运算。在使用过程中,我们可能需要在数组和矩阵之间进行转换。本文将详细介绍如何在Numpy中进行这两种类型之间的转换,并通过实例代码进行说明。我们来了解一下什么是Numpy中的数组和矩阵。Numpy中的数组(ndarray)是一种多维的数组对象,它可以处理数值计算中的各种数据类型,包括整数、浮点数、复数等。数组的维度可以是任意的,但数组中的所有元素必须是相同的数据类型。数组通常用于一般的数值计算和数据处理任务。而Numpy中的矩阵(matrix)则是一种特殊的二维数组,它在某些方面与传统的数学上的矩阵概念相仿,例如支持矩阵乘法,具有逆矩阵等属性。Numpy的矩阵类名为matrix,它继承自ndarray类,但增加了一些特定于矩阵的操作方法。当我们需要进行特定的矩阵运算,比如矩阵乘法时,使用matrix对象可能会更加直观和方便。但是,在需要进行一些通用的数组操作时,使用ndarray对象更为合适。下面将介绍如何将ndarray对象转换为matrix对象,以及如何将matrix对象转换回ndarray对象。1. ndarray转换成matrix在Numpy中,要将一个ndarray对象转换为matrix对象,可以使用numpy库中的mat函数,或者直接将ndarray对象传递给numpy.matrix的构造器。下面给出一个示例:```pythonimport numpy as np# 创建一个4x4的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qing_er爱吃山竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值