CVPR 2025 | Papers-with-Code | 【合集二】Mamba、MLLM(目前已更7篇,持续更新中)

在这里插入图片描述
CVPR 2025 decisions are now available on OpenReview!22.1% = 2878 / 13008
会议官网:https://cvpr.thecvf.com/Conferences/2025

目前计划整理六个合集,部分合集未发布
【合集一】AIGC
【合集二】Mamba、MLLM
【合集三】底层视觉
【合集四】检测与分割
【合集五】三维视觉
【合集六】视频理解

欢迎转载,转载注明出处哦——————————————————————————————————————————————————————————————

Mamba

1.《MambaVision: A Hybrid Mamba-Transformer Vision Backbone》
paper: https://arxiv.org/abs/2407.08083
code: https://github.com/NVlabs/MambaVision
在这里插入图片描述

2.《MobileMamba: Lightweight Multi-Receptive Visual Mamba Network》
paper: https://arxiv.org/abs/2411.15941
code: https://github.com/lewandofskee/MobileMamba
在这里插入图片描述

3.《OccMamba: Semantic Occupancy Prediction with State Space Models》
paper: https://arxiv.org/pdf/2408.09859
code: https://github.com/USTCLH/OccMamba
在这里插入图片描述

MLLM

1.《RAP-MLLM: Retrieval-Augmented Personalization for Multimodal Large Language Model》
Paper: https://arxiv.org/abs/2410.13360
Code: https://github.com/Hoar012/RAP-MLLM
在这里插入图片描述

2.《LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences》
Paper: https://arxiv.org/abs/2412.01292
Code: https://github.com/Hoyyyaard/LSceneLLM
在这里插入图片描述

3.《DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution》
DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution
Paper: https://arxiv.org/abs/2405.16071
Code: https://github.com/callsys/DynRefer
在这里插入图片描述

4.《ShowUI: One Vision-Language-Action Model for GUI Visual Agent》
Paper: https://arxiv.org/abs/2411.17465
Code: https://github.com/showlab/ShowUI
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值