探索视觉奇迹:Text2LIVE - 文本驱动的图像和视频编辑(ECCV 2022 口头报告)
项目页面
Text2LIVE 是一个创新的方法,用于通过文本驱动来编辑真实世界的图像和视频。这个由 ECCV 2022 年口头报告展示的项目,能够实现对现有对象纹理的局部或全局编辑,或者以半透明效果(如烟雾、火焰)增强场景,且保持语义上的连贯性。
项目概述
Text2LIVE 提供了一种零样本、基于文本的自然图像和视频外观操纵方法。只需要输入一张图片或一段视频以及目标文本提示,就可以编辑现有的对象外观或添加新的视觉效果。项目框架利用内部训练集(从单一输入提取)和预训练的 CLIP 模型,训练生成器。我们的关键创新点是生成一个编辑层(包括颜色和不透明度),然后将其叠加在原始输入上。这样,我们可以通过新颖的文本驱动损失直接作用于编辑层,约束生成过程并维持对原始输入的高保真度。Text2LIVE 不依赖预先训练的生成器,也不需要用户提供的编辑蒙版,因此可以跨各种对象和场景在高分辨率的图像和视频上进行局部、语义化的编辑。
开始使用
安装
git clone https://github.com/omerbt/Text2LIVE.git
conda create --name text2live python=3.9
conda activate text2live
pip install -r requirements.txt
接着,下载样例图像和视频:
cd Text2LIVE
gdown https://drive.google.com/uc?id=1osN4PlPkY9uk6pFqJZo8lhJUjTIpa80J&export=download
unzip data.zip
这将创建一个名为 data
的文件夹。
运行示例
对于视频编辑,运行:
python train_video.py --example_config car-turn_winter.yaml
对于图像编辑,运行:
python train_image.py --example_config golden_horse.yaml
中间结果将在优化过程中保存到 results
文件夹中。
示例结果
请访问项目页面中的补充材料查看更丰富的编辑示例。
引用
@inproceedings{bar2022text2live,
title={Text2live: Text-driven layered image and video editing},
author={Bar-Tal, Omer and Ofri-Amar, Dolev and Fridman, Rafail and Kasten, Yoni and Dekel, Tali},
booktitle={European Conference on Computer Vision},
pages={707--723},
year={2022},
organization={Springer}
}
Text2LIVE 打开了图像和视频编辑的新篇章,其强大的文本驱动功能为创意表达和视觉内容创作提供了无限可能。无需复杂的编辑工具,只需简单的文本描述,就能让您的视觉作品焕然一新。立即尝试,开启您的艺术之旅吧!