自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 CVPR2025 | 马里兰大学&Adobe提出从输入文本描述中实现体型参数和感知形状的动作的端到端合成方法,文本生成更真实的人体动作!

现有文本到动作合成方法通常将动作标准化为规范人体模型,忽略了不同体型执行相同动作时的生理差异,导致动作不真实、难以迁移到不同体型。:与T2M、TM2T等基线方法比较,结果表明本文方法在物理合理性指标和文本-动作对齐指标上均优于或与基线方法相当,尤其在 Penetrate 指标上表现出色(表1)。:通过人类感知评估,发现本文方法在形状与文本匹配、动作与文本匹配和动作与形状的合理性方面,受青睐程度接近真实样本,且比基线方法更受偏好(图5)。,利用运动解码器将形状参数和运动令牌解码为最终的运动序列。

2025-05-10 20:36:11 392

原创 耶鲁团队提出Hiera+DINOv2:实时超声图像分割新框架,解决超声图像分割中泛化性与实时性难题!

在每个尺度上,通过转置卷积对粗特征图进行上采样,连接更细尺度的特征,并使用卷积块进行细化,确保有效传播空间信息的同时保留多尺度上下文。:在表1和表2心脏和甲状腺超声数据集的定量分析中,该方法在11个指标中的9个指标上排名第一,在区域重叠指标(ACC、DSC、IoU)上优于现有最优方法,在基于距离的指标(HD95、ASD)上也保持有竞争力的性能(表 3、表 4)。:基于深度学习的方法,如基于 CNN 和 Transformer 的架构,依赖大量特定任务的标注数据,泛化能力受限,难以适应新的超声图像分布。

2025-05-09 21:42:07 842

原创 美国西北大学&斯坦福等提出GazeVal:结合专家眼动追踪数据与放射学评估揭示生成式AI医学影像的不足

通过多种评估指标,全面分析合成图像与真实图像的差异,以及放射科医生在不同任务中的注视行为,为理解人类和机器注意力提供新视角。视觉图灵测试任务(Visual Turing Test):此时,放射科医生明确知晓数据集中同时包含真实和合成的胸部 X 光图像,他们的任务是判断每张图像是真实的还是合成的。该掩膜虽可能包含医生未主动检查的区域,但能有效代表整体观察区域,便于进行定量测量,如计算注视覆盖范围、交并比等指标,以分析医生对真实和合成图像的注视模式差异,从而评估合成图像质量。

2025-05-08 21:33:54 856

原创 华科大提出TIDE:统一文本生成水下高清图像+精准标注!

围绕现有含语义掩码的数据集构建训练数据,用预训练的 Depth Anything 获取深度图,用预训练的 BLIP2 获取图像字幕,构建约 14K 个 {图像,深度,掩码,字幕} 四元组用于训练。:通过跨模态特征交互优化生成结果的一致性。:引入隐式布局共享机制(ILS),通过共享文本到图像模型中的隐式布局(交叉注意力图),对齐生成的图像和密集注释,提高一致性,减少生成成本。:通过添加水下光照或水质相关文本提示,TIDE 能生成更具挑战性的水下图像和准确注释,且生成的数据具有多样性,见图 5、图 6。

2025-05-08 21:25:22 830

原创 AAAI2025 | FBRT-YOLO:目标检测新方法,轻量高效,已开源!

在 Visdrone、UAVDT 和 AI-TOD 数据集上的实验结果表明,FBRT-YOLO 在不同模型规模下均优于现有实时检测器,实现了精度与效率的良好平衡,为航拍图像实时检测提供了更有效的解决方案。轻量化设计:精简冗余计算,相比YOLOv8系列,参数量减少最高74%,推理速度提升显著。AI-TOD 数据集实验结果:该数据集包含大量小目标,FBRT-YOLO相比基线模型,参数数量减少74%,GFLOPs降低20%,同时AP50提升2.2%,AP提升1.1%(见表4),验证了其在小目标检测方面的优越性。

2025-05-04 21:44:50 2351 3

原创 佛罗里达大学提出Med3DVLM:适用于三维医学图像分析的高效视觉-语言模型

定性分析中,其能识别关键异常,但存在过度泛化和幻觉现象见下图3。:基于MLP - Mixer设计双流式投影器,融合低层次空间细节和高层次抽象语义特征,通过两个平行的 MLP - Mixer 模块分别处理不同层的图像特征,然后与文本嵌入融合,比简单线性投影更能捕捉丰富的跨模态交互,提高LLM解码准确性。:采用 DCFormer,将3D卷积分解为三个平行的1D 卷积,降低计算复杂度,有效捕捉3D图像的细粒度空间特征,可处理更大尺寸的3D数据(如 128x256×256),保留细节以改善图文对齐。

2025-04-20 19:13:12 1233

原创 CVPR2025 | 哈工业&鹏程Lab提出MambaVLT:多模态融合与“动态更新”的视觉-语言跟踪新模型!

而状态空间模型和Mamba在长序列建模中表现出色,展现出替代Transformer的潜力,但在时间多模态特征建模和更新方面的应用仍有待研究,因此论文探索Mamba状态空间的演化过程以解决上述问题。首先用单独的视觉和语言编码器进行初步特征提取,将语言描述、模板视频剪辑和搜索区域分别编码为相应特征并连接成统一的1D序列,再通过模态选择模块融合多模态参考,最后由目标判别头定位目标,同时计算置信分数更新模板视频剪辑。:该模块能记忆长期目标信息,进行跨帧信息建模和参考特征更新,增强当前跟踪帧的内部多模态相关性。

2025-04-19 18:54:28 1304

原创 CVPR2025 | 谷歌等提出VICT:视觉上下文动态调优,解决视觉模型分布偏移难题 !

比如图1,在6个代表性视觉任务(包括深度估计、语义分割等)面对15种常见损坏(如噪声、模糊、天气等)时,像Painter这样的现有VICL模型在零样本(任务提示来自训练分布)和单样本(任务提示来自测试分布)设置下,性能都较差,这表明其泛化能力不足,难以适应未见新领域,因此需要研究提升VICL 模型在分布偏移下的泛化性。在未见任务上,如图6,VICT 能对前景对象分割和彩色化等未见任务产生不错的结果,而 Painter 在彩色化任务上无法泛化,进一步证明 VICT 在未见任务上的应用潜力。

2025-04-18 21:10:54 1094

原创 “看一眼就足够!”KAIST提出零样本单目深度估计模型:高分辨率深度图高效生成,告别边界断层!

基于Patch的高分辨率深度估计方法虽能缓解内存问题,但在重新组装估计的深度Patch时会引入深度不连续问题,即边界伪影,且为解决该问题采用的测试时集成平均方法会降低推理速度,在实际应用中存在局限性。:零样本深度估计模型在大规模数据集上训练,泛化性强,但训练数据分辨率低,处理高分辨率图像时,直接处理会导致内存消耗大且精度下降,下采样则会丢失边缘细节,影响深度估计的准确性,使整体结构出现低频伪影。在上图中,定性比较显示PRO模型在处理透明物体和Patch边界时,深度不连续现象最少,推理速度最快。

2025-04-15 22:30:22 821

原创 约翰霍普金斯大学提出F-ViTA:实现多波段热成像图像生成!

F-ViTA 增加了来自基础模型输出的两个条件嵌入:将可见图像通过 RAM-Grounded-SAM 管道生成的掩码经 SAM 提示编码器生成判别嵌入,文本标签经 CLIP 编码器生成文本嵌入,这些嵌入与图像嵌入、指令嵌入连接,通过可训练投影仪处理后参与生成过程(见图3)。:在 RGB-T 融合分割、热图像分割和热图像行人检测等任务中,使用 F-ViTA 生成的热图像作为合成数据,实验表明即使部分使用合成数据,模型性能下降不明显,体现了 F-ViTA 在这些任务中的应用价值(见表 7、8、9)。

2025-04-14 21:21:34 902

原创 CVPR2025 | 上海科技大学提出MITracker:多视图目标跟踪新框架+23万帧数据集,目标跟踪抗遮挡能力飙升!

经ViT处理后,通过特定计算得到聚焦于目标对象的特征,再利用基于CenterNet架构的边界框头输出跟踪结果,并将特征映射到2D特征图,为后续多视图集成做准备。和其他多视图数据集相比,它提供了更丰富的对象类别(27类,远超其他数据集的1 - 8类)和更多的视频(260 个),且采用实用的3 - 4视图相机设置,是唯一结合多视图跟踪、丰富对象类别、缺失标签注释和校准信息的数据集。跟踪的时候呢,当目标在部分视图中被遮挡,系统会利用构建好的3D特征体空间中的信息,对被遮挡视图中的目标跟踪进行优化和修正。

2025-04-11 22:53:15 1059

原创 天津大学&西电提出Dream-IF:量化多模态图像融合相对主导性,显著提升融合性能!

像素损失关注图像像素值的差异,梯度损失用于保留图像的纹理细节,颜色损失确保融合图像的颜色信息准确,而SSIM损失从结构相似性的角度,与其他损失函数相互补充,共同指导模型的训练,使Dream-IF 能够生成更符合预期的融合图像。Dream-IF),通过量化多模态图像融合中的相对主导性,指导跨模态增强与盲退化恢复,显著提升了退化场景下的融合鲁棒性,并在多数据集和下游任务中验证了其优越性。:多数现有方法将图像融合(IF)和图像恢复(IR)视为独立任务(图1a),或虽整合但未挖掘内在联系(图1b),导致性能不佳。

2025-04-09 20:27:20 621

原创 CVPR2025 | 华科&武大提出MINIMA:统一跨模态图像匹配框架,解决多模态图像匹配中因模态差异带来的挑战!

首先在多视图RGB数据上预训练先进的匹配模型,如稀疏匹配的LightGlue、半密集匹配的LoFTR和密集匹配的RoMa。通过数据引擎,不仅解决了多模态数据获取困难的问题,还保证了生成数据的质量和多样性,为匹配模型提供了丰富的训练素材,支持匹配模型学习不同模态间的特征和匹配关系,从而获得跨模态能力。数据引擎能够生成具有显著差异的模态数据,意味着它可以模拟真实世界中不同成像系统产生的模态特征差异,为后续匹配模型的训练提供丰富多样的数据,帮助模型更好地学习跨模态的匹配模式,从而提高跨模态图像匹配的性能。

2025-04-08 21:55:25 1343

原创 CVPR2025 | 西北工大等单位提出HVI:一种新色彩空间+CIDNet,助力低光图像增强!

转换到HSV颜色空间后,虽然照明增强效果看起来更正常,但图像中出现了红色不连续性噪声(如红色区域的噪声)和黑色平面噪声(黑色区域的异常),这些噪声在增强后的图像中形成了明显的伪影,影响图像质量。在低光条件下,成像传感器捕获的图像存在噪声多、视觉质量差的问题,低光图像增强(LLIE)旨在改善图像亮度、减少噪声和颜色偏差。在转换过程中,通过一系列的计算和变换,调整图像的饱和度和亮度,使得最终输出的sRGB增强图像在视觉上更加自然、准确,同时保留了HVI颜色空间在增强过程中所带来的优势,如减少颜色偏差和噪声等。

2025-04-07 22:01:12 1025

原创 ICLR2025-Oral | 斯坦福&港科大提出IC-Light:一种基于扩散模型全新光照编辑方法!

同时,模型还会根据光照和物体信息生成与之匹配的背景,例如在“sunlight from the left side, beach”的描述下,生成有左侧阳光照射效果的海滩背景,确保整体图像在光照和场景上协调统一,以满足用户的需求。:图注中提到虽然展示的架构是典型的基于UNet的扩散模型,但文中所介绍的学习光照和施加光传输一致性约束的方法,同样适用于(潜在)diffusion transformers,说明该方法具有一定的通用性,不局限于特定的模型架构。:以普通图像条件扩散模型为基础,在无特殊约束下学习光照。

2025-04-01 21:19:07 1204

原创 TPAMI2025 | 南大&南洋理工提出PROOF:解决VLM增量学习难题!

由于预训练模型输出具有通用性的特征,投影层可通过数据驱动的方式重组特征,例如在鸟类相关任务中,会为 “鸟喙” 和 “翅膀” 等特征分配更高权重。为防止遗忘旧概念,在学习新任务时,冻结先前任务的投影,让新初始化的投影学习新任务的剩余信息,这样在纳入新概念的同时保留了旧知识。通过冻结预训练的图像/文本编码器,训练特定任务的投影层,在面对新任务时扩展新投影并固定旧投影,缓解遗忘。:在9个基准数据集上,均优于其他方法,验证了学习投影对下游任务的有效性,展示了其抗遗忘能力,表明文本和视觉信息协同适应有助于增量学习。

2025-03-31 22:17:25 1083

原创 CVPR2025 | 浙大&腾讯优图联合提出MobileMamba:轻量多感受野视觉网络,推理速度提升数倍!

如在ImageNet-1K 数据集分类实验中,三阶段网络相比前两阶段为纯CNN 结构的四阶段网络,Top-1和Top-5精度提升了+0.4%,最终选择三阶段网络结构提升推理速度和分类结果。:与其他方法相比,MobileMamba在GPU吞吐量上表现出色,平均比 EfficientVMamba快3.5倍,但在CPU吞吐量、移动端延迟方面落后于基于Transformer的模型,不过相比其他基于Mamba的方法仍有优势,Top-1准确率平均提升1.5%。:相比传统四阶段设计,显著提升推理速度与分类性能。

2025-03-30 22:11:35 1104

原创 ICLR2025 | 港理工等提出Spatial-Mamba:结构感知状态融合新思路!

Spatial-Mamba-T的Top-1准确率达到83.5%,超过ConvNeXt-T 1.4%,超越Swin-T 2.2%、NAT-T 0.3%,比VMamba-T和 LocalVMamba-T分别高出1.0%和0.8%。Spatial-Mamba-S和Spatial-Mamba-B的Top-1准确率分别为84.6%和85.3%,优于NAT-S、NAT-B、VMamba-S和VMamba-B。:线性注意力、原始Mamba和Spatial-Mamba都可在统一矩阵乘法框架下建模,区别在于矩阵的结构。

2025-03-29 23:33:16 686

原创 南大&小米汽车等联合提出MiLA:多视角高保真自动驾驶视频生成世界模型

联合去噪校正流(JDC)模块通过分解锚帧噪声(公式 8、9),优化低帧率锚帧和高帧率插值帧,解决运动不一致问题;-数学建模:基于Rectified Flow理论,设计噪声添加函数,通过调整噪声比例(α₁, α₂)和标准差(σ),在去噪过程中同步修正锚帧的几何失真,提升动态对象(如车辆)的运动连续性。:基于潜在扩散模型(LDM)构建,利用粗到精(Coarse-to-(Re) fine)方法,先计算低帧率锚帧,再用插值模型完成高帧率视频生成,能生成长达一分钟的高保真视频(图3)。(初始条件影响随时间减弱)。

2025-03-28 20:58:20 936

原创 最新!香港科技大学推出从2D到4D多模态生成模型综述

算法包括文本到3D(如Michelangelo、DreamFusion等)、图像到3D(如3DGen、RealFusion等)和视频到3D(如SV3D、CAT3D等)生成,在头像生成、场景生成和3D编辑等领域广泛应用。总结了2D、视频、3D和4D生成常用的数据集,如2D生成的MS-COCO、视频生成的UCF-101等,介绍其数据规模、类型、评估指标和贡献亮点。而多模态生成模型为现实世界模拟带来了新的视角和方法,该文章旨在从数据维度增长的角度,对多模态生成模型进行统一的综述,为该领域的研究提供全面的参考。

2025-03-27 21:37:59 904

原创 CVPR2025 | 华科&地平线提出DiffusionDrive : 解锁自动驾驶端到端规划新“视”界!

变道是复杂交通场景中常见且重要的驾驶行为,DiffusionDrive能够在多个得分较高的轨迹中展现出合理的变道规划,说明其不仅能规划出准确的主要轨迹,还能生成多样化且符合实际驾驶逻辑的其他候选轨迹,充分体现了该模型在处理复杂驾驶场景时的优势,能为自动驾驶车辆提供更丰富、更合理的行驶决策选择。:在训练阶段,利用截断扩散策略得到锚定高斯分布后,训练扩散模型。由于从锚定高斯分布采样的样本更接近真实的驾驶轨迹分布,所以能够在较少的去噪步骤内得到合理的结果,提高了推理效率,同时也满足了自动驾驶实时性的要求。

2025-03-26 20:08:21 1496

原创 中山大学&华为诺亚方舟实验室等提出TransMamba:从Transformer到Mamba的高效跨架构知识迁移

从训练过程的损失函数收敛图和准确率图来看,TransMamba收敛速度更快,准确率更高,在仅使用50% 数据时,PMamba模型就几乎能达到最佳性能,证明了Transformer模型的知识能显著缩短Mamba模型的训练过程。这一操作是后续知识转移的基础,通过将两个模型的特征映射到相似空间,为知识蒸馏创造有利条件,让Mamba模型能够更好地接收来自 Transformer 模型的知识。:通过零填充和MLP层,使Mamba模型的特征维度与Transformer模型匹配,对齐两者的潜在空间,为知识转移奠定基础。

2025-03-25 20:38:11 1333

原创 ICLR2025 | MOS:昆士兰&香港浸会大学提出模型协同策略提升基于激光雷达3D目标检测性能

不同于基于均值教师的方法聚合所有先前检查点,MOS 根据每个测试批次识别并组装最合适的检查点,利用广义Gram矩阵的逆确定权重,并在特征和输出级别引入相似性度量计算该矩阵。论文提出一种新颖的在线测试时自适应框架,通过模型协同策略有效应对基于激光雷达的 3D目标检测中测试时的域转移问题,在多种数据集和不同类型的域转移场景下展现出卓越性能。:首次探索基于激光雷达的3D目标检测的测试时自适应(TTA - 3OD),提出模型协同(MOS)方法,动态利用和整合历史检查点的知识。

2025-03-24 23:39:40 889

原创 篇2-多尺度注意力(Multi-scale attention)论文学习

以I3D网络提取的特征为输入,经卷积和重塑生成Q、K和V矩阵,通过矩阵乘法建模任意两个时空位置特征的时空关系,用softmax得到时空注意力权重分布矩阵,最终输出特征是所有位置特征的选择性聚合与原始特征加权和;当RC传输的特征和两次卷积操作后的特征维度不同时,使用1×1卷积层匹配维度。分别对1x1分支和3x3分支的输出用2D全局平均池化编码全局空间信息,再通过矩阵点积运算得到两个空间注意力图,最后将其聚合并经Sigmoid函数处理得到输出特征图,捕捉像素级成对关系,突出全局上下文,生成像素级注意力。

2025-03-21 21:46:35 1487

原创 篇1-多尺度注意力论文总结,看多尺度注意力如何提升模型性能?

头部将第2、3、4阶段的输出(P2、P3和P4)通过1x1 卷积和标准上采样操作匹配空间和通道大小后,采用加法融合,然后经过几个 MBConv 块和输出层进行预测和上采样。:由通道注意力和空间注意力模块组成。编码器基于MobileNet,去除全连接层,使用多尺度卷积核(1×1、3×3和5×5)替代原有的3×3卷积核,扩大卷积感受野,增强特征提取能力;CSPDarkNet 生成多尺度特征图,PAFPN实现特征融合,MSCA作为颈部网络,通过多尺度耦合注意力对特征图进行处理,最后由输出层完成目标分类和定位。

2025-03-21 21:43:46 874

原创 分析近三年ICLR会议投稿记录,我发现......

从三年标题词云结果可以看出,三年来,reinforcement_learning始终保持器热门的位置,24和25年large_language_models、diffusion_models出现次数开始领先reinforcement_learning,这也是这两年最火的两个方向。论文发表量前五机构Google、tsinghua_university、zhejiang_university、massachusetts_institute_of_technology、peking_university。

2025-03-20 21:49:36 765

原创 帝国理工携手KAIST:BHaRNet用跨注意力优化骨骼动作识别精度

提出将身体和手部作为两个互补数据模态的跨模态架构,身体流提取全局身体动态(如走路、跳跃),手部流专注于手指关节的细粒度运动(如捏、握),以跨模态方式整合详细的手部姿态信息和全身姿态,使模型能同时捕捉全局身体动态和精细的手部关节运动。2.特征模糊:统一图表示(如SkeleT)整合全身、手部和足部关键点时,但由于身体和手部动作特征差异以及空间池化时细微特征的丢失,导致手部细节模糊,限制精确识别手部动作的任务的性能。通过这种方式,框架能够突出RGB帧中相关的时空区域,与骨架数据互补,适应广泛的动作识别任务。

2025-03-20 21:30:00 584

原创 CVPR2025 | 当扩散模型遇见多模态上下文:Google&约翰霍普金斯大学用深度+语义+文本实现精准超分

MMLC采用 Transformer架构,接收随机初始化的可学习潜在标记序列和多模态输入序列,输出与潜在标记序列等长的标记序列,作为扩散模型的条件。-多模态无分类器引导(Multimodal Classifier-free Guidance):针对传统无分类器引导(CFG)在高引导尺度下易产生过多幻觉的问题,提出多模态引导策略。-多模态潜在连接器(MMLC):轻量级Transformer模块,通过交叉注意力将长Token序列压缩为固定长度(128)的潜在表示,降低计算复杂度(从O(M²)到O(MN))。

2025-03-19 22:55:10 1609

原创 生成式人工智能应用发展报告(2024)(附下载)

在产业方面,我国人工智能产业规模不断扩大,体系更加全面,相关企业超4500家,核心产业规模接近6000亿元。在融资方面,生成式人工智能备受青睐,OpenAI估值大幅增长,我国政府引导基金、民间资本和大型企业纷纷投入资金,推动行业发展。我们需要各方共同努力,突破技术瓶颈,规范行业发展,让这一技术更好地服务社会,创造美好的未来。多模态大模型的出现,拓展了生成式人工智能的应用场景。【生成式人工智能发展历程的时间轴,图片来源:网络,侵删,本来想使用报告中图片,但是图片比较模糊,现图片表达内容基本一致,可参考原文】

2025-03-18 21:13:36 1176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除