CV论文--2024.3.20

计算机视觉每日论文

已于 2024-03-20 10:08:57 修改

阅读量307

点赞数 5

文章标签：深度学习计算机视觉人工智能算法机器学习

于 2024-03-20 09:18:13 首次发布

本文链接：https://blog.csdn.net/u012854516/article/details/136863716

版权

1、Graph Expansion in Pruned Recurrent Neural Network Layers Preserve Performance

中文标题：图扩展在修剪的循环神经网络层中保持性能

简介：这段摘要讨论了图的扩展性质，包括强连通性和稀疏性。研究表明，深度神经网络可以通过修剪实现高度稀疏化，同时保持性能。这种修剪对于在资源受限的平台上进行实时序列学习任务的循环神经网络至关重要。我们通过修剪循环网络（如RNN和LSTM）来保持基础图的大谱间隔，并确保它们具有逐层扩展性质。此外，我们还研究了基于时间展开的循环网络图，以其二分图层属性为基础。实验结果针对基准序列MNIST、CIFAR-10和Google语音命令数据表明，扩展图的性质对于维持RNN和LSTM的分类准确性至关重要。

2、Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

中文标题：为多模态异常检测和推理定制视觉-语言基础模型

简介：在各种工业领域中，异常检测至关重要，包括识别生产线上的异常模式和检测制造缺陷以进行质量控制。现有技术通常只针对特定场景，缺乏通用性。本研究旨在开发一个通用的异常检测模型，可适用于多种场景。为了实现这一目标，我们将通用视觉语言基础模型定制为异常检测器和推理器，以具备广泛知识和强大推理能力。具体来说，我们引入了一种多模态提示策略，利用专家领域知识作为条件来指导模型。我们的方法考虑了多种多模态提示类型，包括任务描述、类别上下文、正常规则和参考图像。此外，我们将多模态输入表示统一为2D图像格式，以实现多模态异常检测和推理。初步研究显示，将视觉和语言提示作为模型定制的条件可以提高异常检测性能。定制模型展示了在不同数据模态（如图像和点云）中检测异常的能力。定性案例研究进一步强调了异常检测和推理能力，特别是针对多对象场景和时间数据。我们的代码可在https://github.com/Xiaohao-Xu/Customizable-VLM 获取。

3、Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model

中文标题：Zippo: 将颜色和透明度分布压缩成单个扩散模型

简介：除了在生成高质量图像方面具有优势之外，最新研究尝试揭示文本到图像扩散模型在适应学习语义知识到视觉感知任务方面的潜力。在这项研究中，他们并非将生成性扩散模型转变为视觉感知模型，而是尝试保留生成能力并进行感知适应。为了实现这一目标，提出了名为Zippo的统一框架，通过将颜色和透明度分布融合到单个扩散模型中，将扩散潜在变量扩展为RGB图像和Alpha遮罩的联合表示。通过交替选择一种模态作为条件，然后将扩散过程应用于相应的模态，Zippo能够从Alpha遮罩生成RGB图像，并从输入图像预测透明度。除了单模态预测外，他们还提出了一种模态感知噪声重新分配策略，以进一步赋予Zippo在文本指导下同时生成RGB图像及其对应的Alpha遮罩的能力。实验结果显示，Zippo在文本条件下高效生成透明图像，并展示了Matte-to-RGB和RGB-to-Matte翻译的合理性。