- 博客(1)
- 收藏
- 关注
转载 大语言模型的视频推理分割--ViLLa
ViLLa(Video Reasoning Segmentation with Large Language Model)焦于视频理解中的一个新颖而具有挑战性的任务——视频推理分割。传统视频感知模型往往受限于对显式文本描述或预定义类别的依赖,缺乏理解用户隐含意图的能力,尤其是在处理复杂物体运动的视频场景中。为此,论文提出了...
2024-08-04 02:31:20 57
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人