多模态模型
文章平均质量分 85
页页读
这个作者很懒,什么都没留下…
展开
-
【名词解释】ImageCaption任务中的CIDEr、n-gram、TF-IDF、BLEU、METEOR、ROUGE 分别是什么?它们是怎样计算的?
n-gram是自然语言处理(NLP)中一种基本的概念,它指的是文本中连续的n个项(可以是音节、字或词)组成的序列。n-gram模型通过考察这些连续项的出现概率来捕捉文本中的语言规律,从而用于各种语言模型和文本处理任务,如拼写检查、语音识别、机器翻译以及搜索引擎中的查询预测等。TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它反映了一个词在文档集合中的重要性。原创 2024-04-02 15:04:09 · 1672 阅读 · 0 评论 -
【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的?为什么这样做?
上面这段话是摘自llava原论文。下面说明这个处理过程。原创 2024-03-21 19:07:19 · 1590 阅读 · 0 评论 -
【DiffusionModel系列】Sora揭底系列模型介绍 (VAE/DDPM/SD/DiT/Sora)
该文档介绍了几种深度学习模型,特别是那些在图像合成和处理方面有显著应用的模型。文档内容涉及变分自编码器(VAE)、去噪扩散概率模型(DDPM)、稳定扩散(Stable Diffusion)、扩散变换器(DiT),以及Sora模型的介绍。变分自编码器(VAE):VAE通过最大化数据的边缘似然来训练模型,采用变分下界(ELBO)和KL散度来近似似然函数,从而学习数据的隐含结构。它利用重参数化技巧来使梯度反向传播可行。去噪扩散概率模型(DDPM)原创 2024-03-13 20:46:05 · 676 阅读 · 0 评论 -
【基础知识】DDPM中的解码器部分(“L0”)解释以及概率密度函数的解释
概率密度函数(Probability Density Function, PDF)是连续随机变量的概念,描述了该随机变量在不同值上取值的相对可能性。对于随机变量XXX,其概率密度函数fxf(x)fx满足以下条件:1.fx≥0fx≥0对所有xxx都成立,这意味着概率密度不可能是负值。2.∫−∞∞fxdx1∫−∞∞fxdx1,这意味着随机变量取所有可能值的概率之和为1。原创 2024-03-13 14:51:06 · 1175 阅读 · 0 评论 -
【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文
该论文提出了一种综合VAE+ViT+DDPM的基础架构,主要是在latent patches(可以去看VAE)空间进行操作,这样做的好处是首先计算cost会减小很多,例如如果在原始的图片上操作,例如256x256,那在latent patches空间就可以是32x32. Latent patches是指训练一个图像编码器,我们首先可以把原始图像编码为embeding, 也就是E(x), 编码后的空间就是论文中所说的latent patches空间.的变体结构效果最好. 具体的各个变体的说明可以看论文.原创 2024-03-13 10:55:18 · 1305 阅读 · 0 评论 -
【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题
论文提出了RLHF-V,一种旨在通过细粒度人类反馈对多模态大型语言模型(MLLMs)行为进行校准的框架,以解决模型产生的幻觉问题,即生成的文本与关联图片不符。通过从细粒度的人类反馈中学习,显著减少基础MLLM的幻觉率,提高了模型的可信度和实用性。RLHF-V提供了一种有效的方法来解决MLLMs中的幻觉问题,通过精细的人类反馈和新颖的优化技术,提高了模型在多模态任务中的可信度和实用性。RLHF-V通过细粒度的人类反馈校准MLLMs的行为,显著提高了模型的可信度,并在开源MLLMs中取得了最先进的性能。原创 2024-03-13 10:40:52 · 1976 阅读 · 1 评论