scripts to compositions to videos
本文以《摩登原始人》的动画片段作为训练数据,对每个片段进行详细的文本标注,最终训练得到一个可以通过给定脚本或文字描述生成动画片段的模型。
模型称为组合,检索和融合网络(Craft),分为布局、实体、背景,三个部分。Craft明确地预测所提到的实体(角色和对象)的时间布局,从视频数据库中检索时空实体片段并融合它们以生成场景视频。虽然现阶段模型存在着很多问题,但是这个研究在理解文本和视频图像高层语义方...
原创
2019-04-22 19:50:15 ·
256 阅读 ·
0 评论