前沿论文速递2024.01.29

最新推荐文章于 2024-08-05 15:57:37 发布

ftsao

最新推荐文章于 2024-08-05 15:57:37 发布

阅读量1.8k

点赞数 55

文章标签：人工智能

本文链接：https://blog.csdn.net/qitazhang/article/details/135889546

版权

1.Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui

github：https://github.com/yangling0818/rpg-diffusionmaster ★ 893

paper：https://arxiv.org/abs/2401.11708v1

Task： Diffusion Personalization Tuning Free, Image Generation, Large Language Model, Text-to-Image Generation

摘要：扩散模型在文本到图像的生成和编辑方面表现出了卓越的性能。然而，现有方法在处理涉及具有多个属性和关系的多个对象的复杂文本提示时经常面临挑战。在本文中，我们提出了一种全新的免训练文本到图像生成/编辑框架，即Recaption、Plan和Generate（RPG），利用多模态LLM强大的思想链推理能力来增强文本的组合性文本到图像的扩散模型。我们的方法采用 MLLM 作为全局规划器，将生成复杂图像的过程分解为子区域内多个更简单的生成任务。我们提出互补的区域扩散，以实现区域性的合成生成。此外，我们以闭环方式将文本引导的图像生成和编辑集成到所提出的 RPG 中，从而增强了泛化能力。大量实验表明，我们的 RPG 优于最先进的文本到图像扩散模型，包括 DALL-E 3 和 SDXL，特别是在多类别对象组合和文本图像语义对齐方面。值得注意的是，我们的 RPG 框架表现出与各种 MLLM 架构（例如 MiniGPT-4）和扩散骨干网（例如 ControlNet）的广泛兼容性。

2.Orion-14B: Open-source Multilingual Large Language Models

Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han

github：https://github.com/orionstarai/orion ★ 544

paper：https://arxiv.org/abs/2401.12246v1

Task： Large Language Model

摘要：在这项研究中，我们介绍了 Orion-14B，这是一个具有 140 亿个参数的多语言大型语言模型的集合。我们利用数据调度方法在包含 2.5 万亿个标记的多样化语料库上训练基础模型，这些标记来自英语、中文、日语、韩语和其他语言的文本。此外，我们还微调了一系列专为对话应用程序和其他特定用例定制的模型。我们的评估结果表明 Orion-14B 在广泛的任务中实现了最先进的性能。

3.Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao

github：https://github.com/fasterdecoding/medusa ★ 1517

paper：https://arxiv.org/abs/2401.10774v1

Task： Large Language Model

摘要：由于自回归解码过程中缺乏并行性，大型语言模型（LLM）中的推理过程通常受到限制，导致大多数操作受到加速器内存带宽的限制。虽然已经建议使用推测解码等方法来解决这个问题，但它们的实施受到与获取和维护单独的草稿模型相关的挑战的阻碍。在本文中，我们提出了 Medusa，一种有效的方法，通过添加额外的解码头来并行预测多个后续标记，从而增强 LLM 推理。Medusa 使用基于树的注意力机制构建多个候选延续，并在每个解码步骤中同时验证它们。通过利用并行处理，Medusa 仅在单步延迟方面引入了最小的开销，同时大大减少了所需的解码步骤数。我们为 Medusa 提供了两个级别的微调程序，以满足不同用例的需求： Medusa-1：Medusa 直接在冻结骨干 LLM 之上进行微调，从而实现无损推理加速。Medusa-2：Medusa 与主干 LLM 一起进行微调，可以实现更好的 Medusa 头部预测精度和更高的加速，但需要特殊的训练方法来保留主干模型的功能。此外，我们提出了几种改进或扩展 Medusa 实用性的扩展，包括用于处理没有可用训练数据的情况的自蒸馏，以及用于在保持生成质量的同时提高接受率的典型接受方案。我们在不同尺寸和训练程序的模型上评估美杜莎。我们的实验表明，Medusa-1 可以在不影响生成质量的情况下实现超过 2.2 倍的加速，而 Medusa-2 进一步将加速提高到 2.3-3.6 倍。

4.AnyText: Multilingual Visual Text Generation And Editing

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie ·

github：https://github.com/tyxsspa/anytext ★ 3043

paper：https://arxiv.org/abs/2311.03054v4

Task： Optical Character Recognition (OCR), Text Generation

摘要：基于扩散模型的文本到图像最近取得了令人瞩目的成就。尽管当前的图像合成技术非常先进，能够生成高保真度的图像，但当聚焦于生成图像中的文本区域时，仍然可能会泄露出真相。为了解决这个问题，我们引入了 AnyText，一种基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确且连贯的文本。AnyText 包含一个具有两个主要元素的扩散管道：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成用于文本生成或编辑的潜在特征。后者采用 OCR 模型将笔划数据编码为嵌入，与标记生成器中的图像标题嵌入混合，生成与背景无缝集成的文本。我们采用文本控制扩散损失和文本感知损失进行训练，以进一步提高书写准确性。AnyText 可以用多种语言编写字符，据我们所知，这是第一个解决多语言视觉文本生成问题的工作。值得一提的是，AnyText 可以插入社区现有的扩散模型中，以准确地渲染或编辑文本。经过广泛的评估实验，我们的方法明显优于所有其他方法。此外，我们还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M，其中包含 300 万个带有多种语言 OCR 注释的图像文本对。基于AnyWord-3M数据集，我们提出了AnyText-benchmark来评估视觉文本生成的准确性和质量。

微信公众号同步更新