点击我爱计算机视觉标星,更快获取CVML新技术
本文介绍一篇比较小众但非常有意思的手绘草图识别的新文章《Multi-Graph Transformer for Free-Hand Sketch Recognition》,其实质是提出了一种新颖的 Transformer 网络。
该文作者信息:
作者均来自南洋理工大学。
Ⅰ 研究动机
通常,Transformer 的输入是序列化输入形式,若给定一个句子作为输入,Transformer 允许句子 中的全部词之间建立相互关联的 attention 关系。所以,本质上讲,Transformer 把输入的每个句子看作一个全连接的图(fully-connected graph),Transformer 也算是一种特殊的图神经网络 (GNN)。然而, 如何能为 Transformer 注入先验知识去引导它更精细化地学习图上的结构模式,是一个值得思考的问 题。该文提出以手绘草图作为一种 GNN 的实验床,探索新颖的 Transformer 网络。
手绘草图(free-hand sketch)是一种特殊数据,本质上是一种动态的序列化的数据形式。因为,手绘的过程本身就是一个“连点成线”的过程(如下图 1(b)所示)。
图 1: 手绘草图的离散化理解示意图
已有的手绘草图研究工作均在欧氏空间中对手绘草图进行建模,手绘草图被理解为静态图片输入 到 CNN 中,或者被理解为笔画的关键点的坐标序列输入到 RNN