Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型特点:Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位。
  2. 技术升级:通过扩展预训练数据、细粒度时间对齐和直接偏好优化(DPO)训练,显著提升模型性能。
  3. 应用场景:适用于视频描述、幻觉测试、多语言支持和具身问答等任务。

正文(附运行示例)

Tarsier2 是什么

tarsier2

Tarsier2 是字节跳动推出的大规模视觉语言模型(LVLM),旨在生成高质量的视频描述,并在多种视频理解任务中表现出色。该模型通过三个关键升级实现性能提升:将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。

在 DREAM-1K 基准测试中,Tarsier2-7B 的 F1 分数比 GPT-4o 高出 2.8%,比 Gemini-1.5-Pro 高出 5.8%。在 15 个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。

Tarsier2 的主要功能

  • 详细视频描述:Tarsier2 能生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
  • 视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。
  • 视频定位:Tarsier2 可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
  • 幻觉测试:通过优化训练策略,Tarsier2 显著减少了模型生成虚假信息的可能性。
  • 多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。

Tarsier2 的技术原理

  • 大规模预训练数据:Tarsier2 将预训练数据从1100万扩展到4000万视频-文本对,提升了数据的规模和多样性。
  • 细粒度时间对齐的监督微调(SFT):在监督微调阶段,Tarsier2 引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。
  • 直接偏好优化(DPO):Tarsier2 通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练,确保生成的视频描述更符合人类的偏好。

如何运行 Tarsier2

1. 环境配置

首先,确保你的 Python 版本为 3.9。如果不是,可以通过以下命令创建虚拟环境:

conda create -n tarsier python=3.9

然后运行以下命令进行环境配置:

git clone https://github.com/bytedance/tarsier.git
cd tarsier
bash setup.sh
2. 模型准备

从 Hugging Face 下载模型检查点:

3. 快速启动

使用以下脚本快速启动视频详细描述:

MODEL_NAME_OR_PATH="path_to_the_model"
VIDEO_FILE="assets/videos/coffee.gif"

python3 -m tasks.inference_quick_start \
  --model_name_or_path $MODEL_NAME_OR_PATH \
  --instruction "Describe the video in detail." \
  --input_path $VIDEO_FILE

运行结果将生成详细的视频描述。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值