背景
- 腾讯AI Lab主导,与美国北卡罗来纳大学教堂山分校(UNC)合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART,使用记忆存储单元增强transformer架构,实现递归模型。这个记忆存储单元从视频片段和句子历史记录,生成高度汇总的记忆state,帮助预测。实验证明,MART可以产生更连贯、没有重复、具有相关性的文本。
- paper:https://www.aclweb.org/anthology/2020.acl-main.233.pdf
- github:https://github.com/jayleicn/recurrent-transformer
- TVCaption:https://github.com/jayleicn/TVCaption(ECCV2020)
- Video:https://slideslive.com/38929078/mart-memoryaugmented-recurrent-transformer-for-coherent-video-paragraph-captioning