论文:Learning Transferable Visual Models From Natural Language Supervision
论文实在是太翔实了,看了几遍,捡一些对自己重要的点记下。
1. CLIP选择了对比模型,只需要判断图片和文本是不是匹配即可,不需要逐字逐句区预测文本了,放宽了约束,将预测型目标函数换成了对比型目标函数,极大提高了学习效率
2. prompt learning 可以解决词语多义性问题,比如crane(起重机,鹤),remote(遥远的,遥控器),prompt ensemble 用了80个提示模板,增加上下文修饰提示该模板。
3. 模型在训练阶段使用的文本是句子,如果在推理阶段只使用一个表示类别的词,效果不好,所以都改成了句子
4. CLIP模型对细分类和抽象类(比如异常、正常)识别结果不好
5. 现在都是从给定类别中做选择,后面希望一切GPT化,都做成生成式。