论文精读笔记
文章平均质量分 95
Yozu_Roo
这个作者很懒,什么都没留下…
展开
-
【论文精读04】AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
在这项工作中,我们提出了一个概念上简单和有效的方法来训练一个强大的双语/多语言的多模态表示模型。设计一个预训练好的多语言文本编码器——XLM-R来替代CLIP中的文本编码器,并通过一个两阶段的训练模式——教师学习和对比学习来对齐语言-图像表示。我们在一系列任务上设置了最先进的性能,包括ImageNet-CN、Flicker30kCN、COCO-CN和XTD。此外,我们与CLIP在几乎所有任务上都获得了非常接近的性能,这表明人们可以简单地改变CLIP中的文本编码器,以扩展功能,如多语言理解。原创 2023-06-15 16:57:55 · 693 阅读 · 0 评论 -
【论文精读03】Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
合成满足用户需求的视觉内容通常需要对生成对象的姿态、形状、表达和布局的灵活性和可控性有着一定的要求。现有的方法是通过手动标注的训练数据或先前的三维模型来获得生成对抗网络(GANs)的可控性,这些方法往往缺乏灵活性、精度和通用性。在这项工作中,我们研究了一种强大但浅探索的控制GANs的方法,即“拖动”图像中的任何点,以用户交互的方式精确到达目标点,如图1所示。图1。DragGAN允许用户“拖动”任何GAN生成的图像的内容。原创 2023-05-29 19:38:25 · 744 阅读 · 0 评论 -
【论文精读02】BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation
主题驱动的文本-图像生成模型创造出了一个基于文本提示的输入主题的新展现。现存的模型有着微调时间长、主题保存性不强的问题,基于此提出了BLIP-Diffusion模型,它支持多模态控制,并且使用主题图像和文本提示作为输入。与其他工作不同的是,它引入了一个新的、预训练好的、能提供主题嵌入的多模态编码器。我们首先follow BLIP-2来预训练 视觉编码器;接着,我们设计了一个主题表示学习任务,使扩散模型能够利用这种视觉表示生成新的主题呈现。原创 2023-05-28 10:28:29 · 844 阅读 · 0 评论 -
Re01:NerLTR-DTA: drug–target binding affinity prediction based on neighbor relationship and learning
NerLTR-DTA: drug–target binding affinity prediction based on neighbor relationship and learning to rank原创 2022-10-23 17:30:18 · 1131 阅读 · 1 评论