CV每日论文--2024.4.26

1、Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment

中文标题:自适应混合尺度特征融合网络用于盲目 AI 生成图像质量评估

简介:随着文本到图像和图像到图像生成模型的不断成熟,人工智能生成的图像(AGIs)在广告、娱乐、教育、社交媒体等领域展示了巨大的应用潜力。尽管生成模型取得了显著的进展,但很少有人付出努力来设计相关的质量评估模型。本文提出了一种新的盲图像质量评估(IQA)网络,名为AMFF-Net,用于评估AGI的质量。AMFF-Net从三个维度评估AGI的质量,即“视觉质量”、“真实性”和“一致性”。具体来说,受人类视觉系统的特点启发,同时受到“视觉质量”和“真实性”都具有局部和全局特征的观察启发,AMFF-Net对图像进行了放大和缩小,并将缩放后的图像和原始大小的图像作为输入,以获得多尺度特征。之后,使用自适应特征融合(AFF)块来自适应地融合可学习权重的多尺度特征。此外,考虑到图像和提示之间的相关性,AMFF-Net比较文本编码器和图像编码器的语义特征,以评估文本到图像的对齐情况。作者在三个AGI质量评估数据库上进行了广泛的实验,结果显示,AMFF-Net比九种最先进的盲IQ方法具有更好的性能。消融实验的结果进一步证明了所提出的多尺度输入策略和AFF块的有效性。

2、CutDiffusion: A Simple, Fast, Cheap, and Strong Diffusion Extrapolation Method

中文标题:CutDiffusion:一种简单、快速、廉价且强大的扩散外推方法

简介:我们提出了CutDiffusion方法,无需进行参数调整,旨在简化和加速扩散外推过程,使其更经济实惠并提高性能。CutDiffusion遵循现有的基于块的外推方法,但将标准块扩散过程分为一个旨在进行全面结构去噪的初始阶段和一个专注于具体细节细化的后续阶段。全面的实验表明CutDiffusion具有诸多优势:(1)简单的方法构建使得高分辨率扩散过程简明易懂,无需第三方参与;(2)通过单步高分辨率扩散过程和较少的推断块,实现了快速推理速度;(3)在全面结构去噪期间进行基于块的推断,从而降低了GPU成本;(4)强大的生成性能,源于对具体细节细化的强调。

3、Re-Thinking Inverse Graphics With Large Language Models

中文标题:重新思考使用大型语言模型的逆向图形学

简介:反向图形学是计算机视觉和图形学领域的一个重要挑战,其任务是将图像转换为物理属性,以便在渲染过程中准确再现观察到的场景。要将图像分解为构成元素,如形状、颜色和材质属性,需要对环境有深入的理解。现有的方法受限于在不同领域之间推广的能力。受到大型语言模型(LLM)零样本能力的启发,我们研究了利用这些模型中编码的丰富世界知识来解决反向图形学问题的可能性。我们提出了反向图形学大型语言模型(IG-LLM),这是一个以LLM为核心的框架,可以将视觉信息解码为结构化的3D场景表示。我们引入了一个预训练的视觉编码器和一个连续的数值头,实现了端到端的训练。通过研究,我们展示了LLM在没有使用图像空间监督的情况下,通过预测下一个令牌,推动反向图形学的潜力。我们的分析为利用LLM的视觉知识进行精确空间推理提供了新的可能性。我们将发布代码和数据,以确保研究的可重复性,并推动未来研究的进行。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值