CV
文章平均质量分 96
HERODING77
本科大连理工大学软件工程,目前华东师范大学数据学院硕士在读,兴趣方向为智能体,LLM,自然语言处理,知识图谱,NER,联邦学习,数据结构与算法。
展开
-
【论文精读】Segment Anything
被称为CV领域的GPT-3的工作,大一统了图像分割领域,实现了可提示及时分割,并且能够实现模糊感知,此外还构建了迄今最大的图像分割数据集,在1100万张授权的隐私图像上超过了10亿个mask。该工作中稿于ICCV 2023,其方法构建、实验设计以及写作格局都值得我们学习。PaperCodeFromICCV 2023本文提出SA项目,包含图像分割领域里新的任务、模型和数据集。作者构建了迄今最大的图像分割数据集,在1100万张授权的隐私图像上超过了10亿个mask。原创 2024-02-22 12:45:27 · 1503 阅读 · 0 评论 -
【论文精读】Hierarchical Text-Conditional Image Generation with CLIP Latents
本篇工作即DALL·E2,是文生图领域和多模态领域具有轰动性的工作,其一出现就上了各大板块的热搜。DALL·E2生成的图像丰富且真实,很容易以假乱真。它的实现基于CLIP和扩散模型,前者结合丰富的图文语义,后者生成多样高质量图像,这套组合拳可谓实力十足。下面就来看看这篇工作具体是怎么做的吧。PaperCodeFrom对比学习模型如CLIP展现了其强大的图像语义和风格的表征。为了利用这些表征来进行图像的生成,作者提出了两阶段模型:prior模型通过文本描述生成图像表征,解码器模型根据图像表征生成图像。原创 2023-09-11 16:35:26 · 1124 阅读 · 0 评论 -
【论文通读】CLIP改进工作综述
CLIP作为多模态对比学习里程碑式工作,在创新性,有效性和领域性三个方面都拉满了。本篇博客就来探讨在CLIP之后,各个领域是如何利用CLIP去提升当前领域的性能,以及如何利用CLIP信息整合的能力在多模态领域做大做强。将图文通过CLIP得到特征,然后将这些特征融合起来去做之前的任务,加强模型的训练。把CLIP特征作为teacher,和当前的模型做蒸馏,学习到更好的预训练知识。借鉴CLIP的思想,应用到当前领域,自己定义对比学习和正负样本。原创 2023-09-06 12:23:29 · 2914 阅读 · 0 评论 -
【论文精读】Learning Transferable Visual Models From Natural Language Supervision
CLIP作为多模态对比学习里程碑式工作,在创新性,有效性和领域性三个方面都拉满了。它最伟大的地方在于,打破了固有的基于给定类别分类的壁垒,让即使是未见过的类也能给出很好的结果,这大大提升了模型的灵活性,也让其更适配多种下游任务。PaperCodeFromICML2021目前CV系统最佳的模型都是基于固定对象类别进行训练的。这种监督训练方式限制了它们的通用性和可用性,直接从原始文本中学习图像是一种很有前途的替换方案,它可以利用更广泛的监督来源。原创 2023-09-02 18:23:30 · 930 阅读 · 0 评论 -
【论文精读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
虽然最近的论文精读都涉及CV领域,与博主研究方向不同,但是这些文章大多都涉及Transformer架构,或者和自监督学习、无监督学习有关,所谓万变不离其宗,虽然在不同领域方法不同,但是很多情况下其思想上有很多的共性,特别值得读者去思考。本篇论文精读来自ICCV2021最佳论文,也奠定了Transformer架构在CV领域的地位,其方法精妙,效果显著,是一篇值得精读的佳作。本文提出一个新的视觉Transformer,称作Swin Transformer,可以作为CV领域的通用架构。原创 2023-08-30 19:49:52 · 224 阅读 · 0 评论 -
【论文通读】计算机视觉对比学习综述
本篇对比学习综述内容来自于沐神对比学习串讲视频以及其中所提到的论文和博客,对应的链接详见第六节。本篇博客所涉及的对比学习内容均应用在CV领域,算是到21年为止比较全面的对比学习综述内容讲解。对比学习作为一种自监督学习方法,其在CV领域的发展也印证着自监督学习的发展,科研工作者也在一步步揭开自监督学习的神秘面纱,通过构建不同的代理任务,采用不同的模型架构,来极力挖掘自监督学习的潜力。相信通过本篇博客的学习,你能够对对比学习有着更深刻的认识,万变不离其宗,当你领悟到对比学习的本质,你就能。原创 2023-08-28 21:33:02 · 1111 阅读 · 2 评论 -
【论文精读】Momentum Contrast for Unsupervised Visual Representation Learning
如果说MAE证实了无监督学习在CV领域能够像在NLP领域那样超过监督预训练的性能,那么MoCo就填补了CV中无监督学习和监督学习的gap。作为来自大神何恺明的团队的作品,MoCo行文充满了大佬的自信,让我们看看MoCo这篇工作在写作和方法构建上的精妙之处~CVPR2020本文提出MoCo用于无监督视觉表征学习。它将对比学习任务看成字典查询任务,作者设计了由队列和移动平均编码器组成的动态词典。由于无需梯度反向传播,因此可以得到一个大型且一致的字典, 从而帮助无监督学习。原创 2023-08-26 16:28:13 · 515 阅读 · 0 评论 -
【论文精读】Masked Autoencoders Are Scalable Vision Learners
来自大神何凯明团队的工作,发表在CVPR2022,作为ViT的续作,解决了ViT的自监督学习问题,将通用的Transformer在CV领域再一次推进,文章的写作和思路都很值得借鉴,简单的方法也可以很硬核。本文表明MAE是计算机视觉可扩展的自监督学习者。MAE的方法很简单:随机mask图像patch并重建丢失的像素。设计一个非对称的编码器-解码器架构,编码器仅对可见的像素操作,解码器根据潜在的表征和mask tokens重建原始图像。mask高比例(如75%)的图像会产生不平凡且有意义的自监督任务。原创 2023-08-16 20:01:18 · 314 阅读 · 0 评论 -
【论文精读】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Transformer架构应用在CV的开山之作,证明了预训练+微调范式的Transformer同样适用于CV领域,这种跨界的联动,才是新工作的源源不断的动力。本文参考了沐神的B站视频讲解,清晰易懂,感兴趣的朋友可以点击链接观看。虽然Transformer已经成为了NLP领域的标准,但是Transformer做CV任务还是受到很大的限制,只能和卷积网络结合使用,无法修改卷积框架。本文证明了Transformer在大规模数据集上进行预训练,也能在图像分类任务上达到SOTA,只不过还是需要很多的计算资源。原创 2023-08-11 18:28:01 · 135 阅读 · 0 评论