
【Paper Reading】CLIP:Learning Transferable Visual Models From Natural Language Supervision
前提是我们有一组需要区分的类别,也知道当前的图片确实可以分到这些类别里面,那么我们可以通过给类别增加一些prompt,抽取这些prompt的文本embedding,再抽取图片的visual embedding,分别将visual embedding和不同的prompt的embedding计算相似度,哪个prompt的相似度最高,则属于那个类别。目前许多的视觉任务都是基于固定的类别类目进行训练的到的模型。而在NLP领域中,自回归/masked的这种无监督的训练方式已经逐步成为主流,并且也取得了很不错的效果。











