探索未来视频交互:Dolphin,基于大型语言模型的通用视频平台
🚀 项目简介
由北航和南洋理工大研发团队联合打造的 Dolphin 是一个创新的视频交互平台,它利用强大的大型语言模型,为用户提供了一种全新的视频理解、处理和生成方式。项目目前处于持续建设阶段,期待社区的贡献与支持。
:movie: 演示体验
:fire: 最新更新
-
2023年5月6日:代码发布与在线演示上线
- 视频理解:针对视频进行问题回答。
- 视频处理:包括剪辑视频、添加字幕、提取音频和音轨替换等功能,以及视频到姿态、深度和边缘图的转换。
- 视频生成:文本到视频、姿态/深度到视频,以及视频像素对像素的转换。
:hammer: 快速启动
只需几行命令,即可准备环境并运行Dolphin:
# 创建虚拟环境
conda create -n dolphin python=3.8
conda activate dolphin
# 克隆项目
git clone https://github.com/BUAA-PrismGroup/dolphin.git
cd dolphin
# 安装依赖
pip install -r requirements.txt
# 根据硬件配置运行示例
# ...
:memo: 例子展示
观看以下例子,了解Dolphin如何实现视频问答、处理和生成:
:arrows_counterclockwise: 拓展性
Dolphin框架设计得高度可扩展,你可以轻松添加新的视频基础模型和语言模型。具体方法包括在modules
目录下编写新模型的推理代码,并在configs/backends.yaml
中进行配置。
:toolbox: 应用场景
- 教育:用于教育材料的自动化制作和讲解,增强学习体验。
- 媒体:自动生成新闻报道的视频摘要,提高工作效率。
- 游戏:构建具有互动性的视频游戏元素,提升用户体验。
- 创作:艺术家可以利用Dolphin创作概念视频,探索新的表达形式。
**:white_check_mark: 项目特点
- 易用性:简单直观的命令行接口,易于上手。
- 灵活性:支持多种GPU/CPU配置,适应不同计算资源。
- 扩展性:开放源码,方便开发者添加自定义视频处理和生成功能。
- 全面性:覆盖了从视频理解和处理到生成的全链条操作。
**:mailbox_with_mail: **联系我们
如需帮助或报告问题,请创建GitHub Issue。其他交流,可通过邮件联系Zehuan Huang(huanngzh@gmail.com)或关注Kaleido Lab的Twitter(@kaleido_lab)。
**:books: **引用本文档
如果你发现Dolphin对你有所帮助,请考虑在你的工作中引用我们:
@misc{dolphin,
Author = {Zehuan Huang, Haoran Feng, Chongzhi Zhang, Lu Sheng, Ziwei Liu, Jing Shao},
Year = {2023},
Note = {https://github.com/kaleido-lab/dolphin},
Title = {Dolphin: 基于LLMs的通用视频交互平台}
}
Dolphin代表了视频与自然语言交互的前沿,是一个值得开发者、研究者和爱好者探索的创新工具。现在就加入我们,一起推动视频处理和生成技术的发展吧!