![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
少玩游戏多看代码
这个作者很懒,什么都没留下…
展开
-
把CLIP混合的特征空间分离开来 Parts of Speech–Grounded Subspaces in Vision-Language Models
可以看到,对于文森特梵高,CLIP出来的是文森特本人的照片,混合以他的作品的色彩风格。但是经过作者模型解耦之后,去除noun的结果,就剩下adj类的特征,所以第二行出现的是文森特作品风格的类似图片。比如左图这张金鱼的照片,CLIP的一整个图片feature其实包含了三种维度的信息。从形容词上来说,可以是金色的;作者提出CLIP这种图文对训练,其实它的image feature把各种维度的feature都融合在一起了。去除adj的结果,就是只剩下noun也就是事实性的特征,所以第三行是文森特本人。原创 2023-05-24 12:29:36 · 253 阅读 · 0 评论 -
基于LLM,提出一个通过推理来检测目标的新任务 DetGPT: Detect What You Need via Reasoning
我现在跟机器人说:“请帮我拿一杯冷饮”,机器人看了一圈,发现没有冷饮,于是问LLM冷饮会在哪里呢?LLM告诉他可能会在冰箱里。于是机器人就走去冰箱那里查看有没有冷饮。”,但是现在有了chatgpt这种大语言模型后,我们能做的更多了,我希望能直接说出我的需求,ai来分析我的需求,然后检测可以满足需求的地方。个人觉得这个新任务挺有趣的,也很切合ai未来发展的方向,如果被录了,估计能收获不少cite。每日读报的时候看到的。港科港大上交几个人合作,提出的一个新任务。指的是以前的检测都是“原创 2023-05-24 11:58:30 · 426 阅读 · 0 评论 -
DEEP NEAREST CLASS MEAN CLASSIFIERS
我还特意去摘要确认了一下,他们就是针对普通的NCM更新原型困难的痛点,加了一个动量更新的机制。后面勉强提出来对动量更新的两个“改进”,也没什么用,所以我都懒得写。2017年的Prototypical Networks(用于小样本学习),虽然是直接基于NCM分类器来学习deep representation的,但是他们的方法很难扩展到大规模的分类。2017年的icarl,虽然用了NCM分类器,但是他们的特征是基于softmax分类器学出来的。对于深度特征表示的学习,难点就在于随着学习的进行,uy的更新。原创 2022-08-20 12:07:07 · 721 阅读 · 2 评论