前沿论文速递2024.2.6

最新推荐文章于 2024-10-12 10:15:37 发布

ftsao

最新推荐文章于 2024-10-12 10:15:37 发布

阅读量1.9k

点赞数 46

分类专栏：不定时前沿论文速递文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qitazhang/article/details/136048083

版权

不定时前沿论文速递专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.ALLEN | 全流程开源大模型

MOLMo: Accelerating the Science of Language Models

Dirk Groeneveld, Iz Beltagy, Pete Walsh, et.al.

github：https://github.com/allenai/olmo ★ 1727

paper：https://arxiv.org/abs/2402.00838v1

Task： Language Modelling

摘要：语言模型 (LM) 在 NLP 研究和商业产品中已经变得无处不在。随着其商业重要性的飙升，最强大的模型已被封闭，被封闭在专有接口后面，其训练数据、架构和开发的重要细节均未公开。考虑到这些细节在科学研究这些模型中的重要性，包括它们的偏差和潜在风险，我们认为研究界有必要获得强大的、真正开放的 LM。为此，本技术报告详细介绍了 OLMo 的第一个版本，这是一种最先进的、真正的开放语言模型及其用于构建和研究语言建模科学的框架。与之前大多数仅发布模型权重和推理代码的工作不同，我们发布了 OLMo 和整个框架，包括训练数据以及训练和评估代码。我们希望这个版本能够增强和加强开放研究社区，并激发新的创新浪潮。

2.用指令进行图像修复

High-Quality Image Restoration Following Human Instructions

Marcos V. Conde, Gregor Geigle, Radu Timofte

github：https://github.com/mv-lab/InstructIR ★ 194

paper：https://arxiv.org/abs/2401.16468v2

Task：Image Denoising， Image Enhancement， Image Restoration， Low-Light Image Enhancement， Rain Removal

摘要：图像恢复是一个基本问题，涉及从退化的观察中恢复高质量的干净图像。多合一图像恢复模型可以使用特定于退化的信息作为指导恢复模型的提示，有效地从各种类型和级别的退化中恢复图像。在这项工作中，我们提出了第一种使用人工编写的指令来指导图像恢复模型的方法。考虑到多种退化类型，在自然语言提示的情况下，我们的模型可以从退化的对应图像中恢复高质量图像。我们的方法 InstructIR 在多项恢复任务上取得了最先进的结果，包括图像去噪、去雨、去模糊、去雾和（低光）图像增强。InstructIR 比以前的一体化恢复方法提高了 +1dB。此外，我们的数据集和结果代表了文本引导图像恢复和增强新研究的新基准。

3.DeepSeek-AI、北大 | 开源可商用，代码生成大模型

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

github：https://github.com/deepseek-ai/DeepSeek-Coder ★ 4439

paper：https://arxiv.org/abs/2401.14196v2

Task：Code Generation, Language Modelling , Large Language Model

摘要：大型语言模型的快速发展彻底改变了软件开发中的代码智能。然而，闭源模型的主导地位限制了广泛的研究和开发。为了解决这个问题，我们推出了 DeepSeek-Coder 系列，这是一系列大小从 1.3B 到 33B 的开源代码模型，在 2 万亿个代币上从头开始训练。这些模型在高质量的项目级代码语料库上进行了预训练，并采用 16K 窗口的填空任务来增强代码生成和填充。我们的广泛评估表明，DeepSeek-Coder 不仅在多个基准测试中实现了开源代码模型中最先进的性能，而且还超越了 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型拥有宽松的许可证，允许研究和不受限制的商业用途。

4. 港中文等 | 视频生成加速

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li

github：https://github.com/g-u-n/animatelcm ★ 104

paper：https://arxiv.org/abs/2402.00769v1

Task：Conditional Image Generation， Denoising Image Generation， Video Generation

摘要：视频扩散模型因其能够生成连贯且高保真度的视频而受到越来越多的关注。然而，迭代去噪过程使其计算量大且耗时，从而限制了其应用。受到一致性模型（CM）的启发，一致性模型（CM）提炼预训练的图像扩散模型，以最少的步骤加速采样，以及其在条件图像生成上的成功扩展潜在一致性模型（LCM），我们提出了AnimateLCM，允许在最少的步骤内生成高保真视频。我们没有直接在原始视频数据集上进行一致性学习，而是提出了一种解耦的一致性学习策略，该策略将图像生成先验和运动生成先验的蒸馏解耦，从而提高了训练效率并增强了生成视觉质量。此外，使稳定扩散社区中的即插即用适配器的组合能够实现各种功能（例如，用于可控发电的ControlNet）。我们提出了一种有效的策略，使现有适配器适应我们的蒸馏文本条件视频一致性模型，或者从头开始训练适配器，而不损害采样速度。我们在图像条件视频生成和布局条件视频生成中验证了所提出的策略，均取得了最佳效果。实验结果验证了我们提出的方法的有效性。代码和权重将被公开。

微信公众号同步更新