多模态LLM相关
文章平均质量分 82
多模态LLM相关
sapphire223
这个作者很懒,什么都没留下…
展开
-
BLIP2阅读笔记
1)解决现有方案的问题:大规模模型的端到端训练,视觉和语言预训练的成本变得越来越高。2)怎么做的:从现成的冻结预训练图像编码器和冻结大型语言模型中引导视觉语言预训练。BLIP-2通过轻量级的查询转换器弥补了模态缺口,该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器中引导视觉语言表示学习。第二阶段从冻结的语言模型中引导视觉到语言生成性学习。3)效果:BLIP-2在各种视觉语言任务上实现了最先进的性能,尽管其可训练参数比现有方法少得多。原创 2023-07-03 11:49:53 · 315 阅读 · 0 评论 -
VILA: Learning Image Aesthetics from User Commentswith Vision-Language Pretraining阅读笔记
解决的问题:现有的图像美学评估(IAA)方法主要依赖于人类标记的评分,这过于简化了人类感知的视觉美学信息。相反,用户评论提供了更全面的信息,是表达人类对图像美学的意见和偏好的更自然的方式。有鉴于此,我们建议从用户评论中学习图像美学,并探索视觉语言预训练方法来学习多模态美学表征。具体做法:具体而言,我们使用图像注释对预训练图像-文本编码器-解码器模型,使用对比和生成目标来学习没有人类标签的丰富和通用的美学语义。为了有效地将预训练的模型用于下游IAA任务,我们进一步提出了一种轻量级的基于排名的适配器原创 2023-07-04 15:09:42 · 410 阅读 · 1 评论 -
利用transformer完成文本分类任务
直接使用transformer库即可完成此任务。原创 2023-09-08 16:26:30 · 606 阅读 · 0 评论 -
LLM与通用智能体的思考与归纳
时间范围,大致在深度学习引入NLP领域(2013年左右),到GPT 3.0出现之前(2020年5月左右)。NLP领域的深度学习,主要依托于以下几项关键技术:以大量的改进LSTM模型及少量的改进CNN模型作为典型的特征抽取器;以Sequence to Sequence(或叫encoder-decoder亦可)+Attention作为各种具体任务典型的总体技术框架。在这些核心技术加持下,NLP领域深度学习的主要研究目标,是如何有效增加。原创 2023-11-07 15:27:51 · 163 阅读 · 0 评论