clip是使用 描述图片的句子 和 图片分类 作为一组输入来训练网络。
glip是使用 描述图片的句子 和 图片检测任务 作为一组输入来训练网络。
clip使用4亿对, glip使用27milliion, 3M人工标定, 24M网络爬
glipv2比v1多了语义分割,实例分割
clip是使用 描述图片的句子 和 图片分类 作为一组输入来训练网络。
glip是使用 描述图片的句子 和 图片检测任务 作为一组输入来训练网络。
clip使用4亿对, glip使用27milliion, 3M人工标定, 24M网络爬
glipv2比v1多了语义分割,实例分割