背景
- 腾讯AI Lab主导,与美国北卡罗来纳大学教堂山分校(UNC)合作完成。提出了一种增强视频描述生成的连贯性的循环Transformer结构MART,使用记忆存储单元增强transformer架构,实现递归模型。这个记忆存储单元从视频片段和句子历史记录,生成高度汇总的记忆state,帮助预测。实验证明,MART可以产生更连贯、没有重复、具有相关性的文本。
- paper:https://www.aclweb.org/anthology/2020.acl-main.233.pdf
- github:https://github.com/jayleicn/recurrent-transformer
- TVCaption:https://github.com/jayleicn/TVCaption(ECCV2020)
- Video:https://slideslive.com/38929078/mart-memoryaugmented-recurrent-transformer-for-coherent-video-paragraph-captioning
MART是一种记忆增强的循环Transformer结构,旨在提高视频描述的连贯性。通过结合视频片段和句子历史的记忆状态,MART能够生成更连贯、无重复且相关性强的文本。相较于Transformer-XL,MART更有效地传递语义线索,解决了视频描述中的上下文信息利用问题。
最低0.47元/天 解锁文章

734

被折叠的 条评论
为什么被折叠?



