大模型系列
文章平均质量分 96
本专栏旨在跟踪AI技术发展趋势,记录了经典大模型原理及其可应用场景,可作为技术调研、领域入门参考资料。
kabuto_hui
渡己亦渡人
展开
-
【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024)
LaVIT是Language-VisionTransformer的简称,作者来自于北大和快手科技。文章提出了一种将图片tokenization的方式,使图片可以与language一样,可以用一组token来表示,这样图片就可以跟language的token合并在一起作为LLM的输入,通过自回归的方式来训练网络,相当于统一了视觉和文本两种模态的输入,其中图片的token前后通过两个特殊的token[IMG]和[/IMG]来与文本的token区分。所以文章的重点就在于如何将图片tokenization。原创 2024-06-30 17:17:12 · 749 阅读 · 0 评论 -
【大模型系列】大模型评价指标总结
参考资料:BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标,但也可用于评估生成文本的质量,通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字,用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠(低质量),而 1 表示其与参考翻译完全重叠(高质量)。定义如下:BLEU=∏i4min(1,exp(1−reference-lengthoutput-length))⏟原创 2024-04-20 17:26:26 · 4295 阅读 · 0 评论 -
【大模型系列】一文看懂SAM大模型
参考资料:SAM模型大致上分成3个模块,一个标准的vit构成的image encoder、一个prompt encoder和一个mask decoder。其中:从结构上看,sam的encoder部分就是堆叠transformer的block结构,最后再跟一个neck,调整输出embedding的维度。Meta开源了三个模型,分别是vit_h, vit_l和vit_b,这三个模型的区别仅仅在于内部patch embedding维度、transformer的block的个数以及每个block中head的数量和全原创 2024-03-23 10:56:20 · 8147 阅读 · 0 评论 -
【大模型系列】问答理解定位(Qwen-VL/Llama2/GPT)
在模型解码过程中,模型是根据前一个结果继续预测后边的,依次推理,此时为了生成完整的句子,需要融合多个step的输出,目标就是使得输出序列的每一步的条件概率相乘最大。在第二步,A和C作为输入,继续预测,则有10个可能得结果,然后再取其中最大的2个,作为输入,进行第三步,取结果中概率最大的2个,得到2个结果,然后再在2个结果中取最优的一个作为输出。对于下图的上半部分,对于2048之后的位置超出了训练2048的长度,模型推理时,该部分很可能就随机乱猜了,导致生成的结果不好。,是decoder-only的模型。原创 2024-03-16 12:21:16 · 2097 阅读 · 2 评论 -
【大模型系列】统一图文理解与生成(BLIP/BLIPv2/InstructBLIP)
问题一:目前VLP(Vision-Language Pre-training)数据大多来自于网络爬取,如CLIP。其中的caption包含很多噪声,不是一个理想的监督来源;问题二:在以往的VLP框架中,仅在理解任务或者生成任务方面表现出色,很少有可以兼顾的模型。针对问题一:提出一种bootstrapping caption的方案来“提纯”带噪声的网络爬取数据,从而提升多模态模型的能力;针对问题二:提出一种新的VLP框架BLIP统一视觉语言理解和生成任务,比现有的方法更适应广泛的下游任务;原创 2024-03-16 11:01:14 · 2316 阅读 · 0 评论 -
【大模型系列】图片生成(DDPM/VAE/StableDiffusion/ControlNet/LoRA)
ControlNet 是一个任务相关的端到端方法,即对于每一种控制类型都要训练一个特定的 ControlNet 支持, 比如线图控制、深度图控制、姿态控制等等。这样有好处也有坏处, 单独看一个场景,拥有使用简单、训练成本低等优点。但是,如果面对一个复杂场景(多场景),反而变得略麻烦,每一个细分场景都要训练和维护一个模型, 成本高昂,也不易用。LoRA与Adapter的区别:adapter是在模块的后面接上一个mlp,对模块的计算结果进行一个后处理。原创 2024-03-14 23:38:53 · 1973 阅读 · 0 评论 -
【大模型系列】图文对齐(CLIP/TinyCLIP/GLIP)
给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。分成G个阶段进行,每个阶段在前Lm step里做亲和蒸馏和继承训练(根据step更新当前稀疏度p,然后计算亲和力蒸馏损失,然后当前稀疏度p和目标稀疏q计算稀疏损失,然后更新mask和权重),然后将不重要权重移除,Lm后续的训练用亲和训练。原创 2024-03-09 14:10:29 · 2650 阅读 · 0 评论 -
【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)
DINO 中最核心的数据采样策略便是图像裁剪,这也是自监督学习领域应用非常广泛的主策略之一。原创 2024-03-09 17:45:14 · 4270 阅读 · 5 评论