CV每日论文--2024.6.19

计算机视觉每日论文

于 2024-06-20 09:07:46 发布

阅读量340

点赞数 4

文章标签：算法计算机视觉人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012854516/article/details/139819126

版权

1、LLaNA: Large Language and NeRF Assistant

中文标题：LLaNA: 大型语言和NeRF助手

简介：多模态大语言模型(MLLMs)已经展现出对图像和三维数据的出色理解能力。然而,这两种数据形式在全面捕捉物体外观和几何形状方面存在局限性。与此同时,神经辐射场(NeRFs)通过在简单多层感知器(MLP)权重中编码信息,已成为一种越来越普及的新兴模态,能同时编码物体的几何形状和逼真外观。

本文探讨将NeRF引入MLLM的可行性和效果。作者提出了LLaNA,这是第一个能执行NeRF字幕、问答等新任务的通用NeRF语言助手。值得注意的是,该方法直接处理NeRF的MLP权重,无需渲染图像或实现3D数据结构,就可以提取所表示物体的信息。作者还构建了一个包含各种NeRF语言任务的文本注释NeRF数据集,无需人工干预。

基于这个数据集,作者开发了一个基准来评估处理NeRF权重的方法在NeRF理解能力方面的表现。结果显示,这种方法优于从NeRF中提取2D或3D表示的方法。

2、Autoregressive Image Generation without Vector Quantization

中文标题：自回归图像生成无向量量化

简介：这段文章探讨了一种图像生成的新方法,不需要使用向量量化技术。传统的观点认为,采用自回归模型进行图像生成需要使用离散的编码标记。但是作者发现,尽管离散值空间可以方便地表示分类分布,但它并不是自回归建模的必要条件。

在这项研究中,作者提出使用扩散过程来建模每个标记的概率分布,从而允许在连续值空间中应用自回归模型。作者定义了一种扩散损失函数,来建模每个标记的概率分布,而不是使用分类交叉熵损失。这种方法消除了需要使用离散值标记的必要性。

作者在标准自回归模型和广义掩码自回归(MAR)变体的广泛案例中评估了这种方法的有效性。通过消除向量量化,这种图像生成器在保留序列建模速度优势的同时,取得了优秀的生成结果。

作者表示,希望这项工作能激发更多在其他连续值领域和应用中使用自回归生成的研究动力。

3、Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%

中文标题：将 VQGAN 的 Codebook 大小扩展至 100,000，利用率达到99%

简介：在图像量化领域,VQGAN等模型通过将图像编码为预定义"码书"中的离散标记来工作。最近的研究表明,扩大码书大小可以显著提高模型性能。但VQGAN及其衍生模型(如VQGAN-FC)在增大码书大小和提高码书利用率方面仍然面临挑战。

为解决这些问题,本文提出了一种名为VQGAN-LC的新型图像量化模型。VQGAN-LC将码书大小扩展到100,000,并实现了超过99%的高利用率。与之前优化每个码书条目的方法不同,VQGAN-LC从100,000个预训练视觉特征初始化码书,然后优化一个将特征分布对齐至码书的投影器。

作者展示,VQGAN-LC在图像重建、分类、自回归生成和扩散/流式生成等任务中均优于其他模型。相关代码和模型已公开发布https://github.com/zh460045050/VQGAN-LC。

计算机视觉每日论文

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.6.19

值得注意的是,该方法直接处理NeRF的MLP权重,无需渲染图像或实现3D数据结构,就可以提取所表示物体的信息。与此同时,神经辐射场(NeRFs)通过在简单多层感知器(MLP)权重中编码信息,已成为一种越来越普及的新兴模态,能同时编码物体的几何形状和逼真外观。与之前优化每个码书条目的方法不同,VQGAN-LC从100,000个预训练视觉特征初始化码书,然后优化一个将特征分布对齐至码书的投影器。在这项研究中,作者提出使用扩散过程来建模每个标记的概率分布,从而允许在连续值空间中应用自回归模型。
复制链接

扫一扫

计算机视觉每日论文 CSDN认证博客专家 CSDN认证企业博客

码龄11年

123: 原创

9451: 周排名

1万+: 总排名

10万+: 访问

: 等级

3183: 积分

1607: 粉丝

1780: 获赞

7: 评论

1475: 收藏

私信

关注

热门文章

分类专栏

最新评论

CV每日论文--2024.4.16
艾思科蓝 AiScholar: 您好，有兴趣谈一下合作吗~可以私信我~
CV每日论文--2024.5.8
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
CV每日论文--2024.4.22
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
CV每日论文--2024.4.26
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
CV每日论文--2024.4.26
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。