开放式的目标检测
最近做了一个很有意思的工作,可以总结为使用自然语言描述的目标的目标检测。预期使用场景是视频理解,语义检索这一类的场景。传统的目标检测技术,大概可以归纳为,采集数据、标注目标类别和位置,训练,测试使用。这里的主要问题是很多带标注的数据成本很贵,而且很多应用中的目标类别其实挺少见的。学术上的说法是分布成长尾形态(LongTail),顺带专门有一帮学者搞零样本、少样本的检测。两年前,大家的做法是弄一个query(输入图像),再指定一个suport(要检索目标的图像,模板图像),让后通过同样的网络生成两个不







