探索未来视频交互：Dolphin，基于大型语言模型的通用视频平台

最新推荐文章于 2024-12-09 12:00:46 发布

伍辰惟

最新推荐文章于 2024-12-09 12:00:46 发布

阅读量724

点赞数 21

本文链接：https://blog.csdn.net/gitblog_00054/article/details/139517723

版权

探索未来视频交互：Dolphin，基于大型语言模型的通用视频平台

dolphinGeneral video interaction platform based on LLMs, including Video ChatGPT项目地址:https://gitcode.com/gh_mirrors/dolph/dolphin

🚀 项目简介

Dolphin Logo

由北航和南洋理工大研发团队联合打造的 Dolphin 是一个创新的视频交互平台，它利用强大的大型语言模型，为用户提供了一种全新的视频理解、处理和生成方式。项目目前处于持续建设阶段，期待社区的贡献与支持。

:movie: 演示体验

观看官方演示视频，一窥Dolphin的强大功能：

:fire: 最新更新

2023年5月6日：代码发布与在线演示上线
- 视频理解：针对视频进行问题回答。
- 视频处理：包括剪辑视频、添加字幕、提取音频和音轨替换等功能，以及视频到姿态、深度和边缘图的转换。
- 视频生成：文本到视频、姿态/深度到视频，以及视频像素对像素的转换。

:hammer: 快速启动

只需几行命令，即可准备环境并运行Dolphin：

# 创建虚拟环境
conda create -n dolphin python=3.8
conda activate dolphin

# 克隆项目
git clone https://github.com/BUAA-PrismGroup/dolphin.git
cd dolphin

# 安装依赖
pip install -r requirements.txt

# 根据硬件配置运行示例
# ...

:memo: 例子展示

观看以下例子，了解Dolphin如何实现视频问答、处理和生成：

:arrows_counterclockwise: 拓展性

Dolphin框架设计得高度可扩展，你可以轻松添加新的视频基础模型和语言模型。具体方法包括在modules目录下编写新模型的推理代码，并在configs/backends.yaml中进行配置。

:toolbox: 应用场景

教育：用于教育材料的自动化制作和讲解，增强学习体验。
媒体：自动生成新闻报道的视频摘要，提高工作效率。
游戏：构建具有互动性的视频游戏元素，提升用户体验。
创作：艺术家可以利用Dolphin创作概念视频，探索新的表达形式。

**:white_check_mark: 项目特点

易用性：简单直观的命令行接口，易于上手。
灵活性：支持多种GPU/CPU配置，适应不同计算资源。
扩展性：开放源码，方便开发者添加自定义视频处理和生成功能。
全面性：覆盖了从视频理解和处理到生成的全链条操作。

**:mailbox_with_mail: **联系我们

如需帮助或报告问题，请创建GitHub Issue。其他交流，可通过邮件联系Zehuan Huang（huanngzh@gmail.com）或关注Kaleido Lab的Twitter（@kaleido_lab）。

**:books: **引用本文档

如果你发现Dolphin对你有所帮助，请考虑在你的工作中引用我们：

@misc{dolphin,
    Author = {Zehuan Huang, Haoran Feng, Chongzhi Zhang, Lu Sheng, Ziwei Liu, Jing Shao},
    Year = {2023},
    Note = {https://github.com/kaleido-lab/dolphin},
    Title = {Dolphin: 基于LLMs的通用视频交互平台}
}

Dolphin代表了视频与自然语言交互的前沿，是一个值得开发者、研究者和爱好者探索的创新工具。现在就加入我们，一起推动视频处理和生成技术的发展吧！

dolphinGeneral video interaction platform based on LLMs, including Video ChatGPT项目地址:https://gitcode.com/gh_mirrors/dolph/dolphin

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考