大模型日报｜今日必读的9篇大模型论文

最新推荐文章于 2024-08-06 14:33:25 发布

学术头条

最新推荐文章于 2024-08-06 14:33:25 发布

阅读量883

点赞数 22

分类专栏：每日大模型论文文章标签：人工智能 chatgpt 语言模型 AIGC 机器学习

本文链接：https://blog.csdn.net/AMiner2006/article/details/137053495

版权

每日大模型论文专栏收录该内容

81 篇文章 88 订阅

订阅专栏

本文综述了多项前沿AI研究，包括罗格斯大学的AIOS系统、香港大学的FlashFace人脸定制、小米的SDXS模型、压缩模型的安全性评估、天津大学的中医大模型Qibo，以及心理健康和长视频生成领域的挑战与进展。

摘要由CSDN通过智能技术生成

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1. 罗格斯团队提出AIOS：将大型语言模型嵌入操作系统*

基于大型语言模型（LLM）的智能体（agent）的集成和部署一直充满挑战，影响其效率和功效，问题包括：LLM 上智能体请求的次优调度和资源分配、智能体与 LLM 交互过程中维持上下文的困难，以及集成具有不同能力和专长的异构智能体所固有的复杂性。此外，智能体数量和复杂性的快速增长进一步加剧了这些问题，往往会导致瓶颈和资源利用率不达标。

受这些挑战的启发，罗格斯大学的研究团队推出了一种将大型语言模型嵌入操作系统（OS）的 LLM 智能体操作系统 AIOS。具体来说，AIOS 的设计目的是优化资源分配、促进智能体之间的上下文切换、实现智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制。

该团队介绍了这种操作系统的架构，概述了它要解决的核心挑战，并提供了 AIOS 的基本设计和实现方法。

他们对多个智能体并发执行的实验证明了 AIOS 模块的可靠性和效率。可以通过这些实验，提高 LLM 智能体的性能和效率，同时为将来更好地开发和部署 AIOS 生态系统开辟道路。

论文链接：
https://arxiv.org/abs/2403.16971
GitHub地址：
https://github.com/agiresearch/AIOS

2. 港大、阿里新研究：只需一张图，轻松即时定制个性化照片

来自香港大学、阿里巴巴和蚂蚁集团的研究团队推出了一种实用工具 FlashFace，用户只需提供一张或几张参考人脸图像和文字提示，就能轻松地即时个性化自己的照片。

FlashFace 有别于现有的人类照片定制方法，具有更高的身份保真度和更好的指令跟随性，这得益于两个微妙的设计。

一是该技术将人脸身份编码为一系列特征图，而不是像以前的技术那样编码为一个图像 token，从而使模型能够保留参考人脸的更多细节（如疤痕、纹身和脸型）。

二是在文本到图像的生成过程中，FlashFace 引入了一种分离整合策略来平衡文本和图像引导，从而缓解了参考人脸和文本提示之间的冲突（例如，将成人个性化为“儿童”或“老人”）。

大量实验证明了 FlashFace 在各种应用中的有效性，其中包括人像个性化、语言提示下的人脸互换、将虚拟人物变成真人等。

论文链接：
https://arxiv.org/abs/2403.17008
项目地址：
https://jshilong.github.io/flashface-page/

3.小米新研究：带图像条件的一步式扩散模型 SDXS

目前，扩散模型的最新进展使其处于图像生成的最前沿。然而，尽管扩散模型性能优越，也并非没有缺点；它们的特点是架构复杂、计算量大，迭代采样过程会导致明显的延迟。

为了缓解这些局限性，小米研究团队提出了一种双重方法，包括模型微型化和减少采样步骤，旨在显著降低模型延迟。该方法利用知识蒸馏来简化 U-Net 和图像解码器架构，并引入了一种利用特征匹配和分数蒸馏的一步 DM 训练技术。他们还介绍了 SDXS-512 和 SDXS-1024 两个模型，它们在单 GPU 上的推理速度分别达到约 100 FPS（比 SD v1.5 快 30 倍）和 30 FP（比 SDXL 快 60 倍）。

论文链接：
https://arxiv.org/abs/2403.16627
项目地址：
https://idkiro.github.io/sdxs/

4.李博领衔新研究：压缩大型语言模型的安全性和可信度评估

压缩高能力大型语言模型（LLMs）已成为资源节约型推理的首选策略。

然而，尽管 SOTA 压缩方法在保持良性任务性能方面取得了令人瞩目的进步，但压缩在安全性和可信度方面的潜在风险却在很大程度上被忽视了。

来自德克萨斯大学、德雷克塞尔大学和麻省理工学院的研究团队及其合作者，首次使用 5 种 SOTA 压缩技术，从 8 个可信度维度对 3 种领先的 LLMs 进行了全面评估。该研究强调了压缩与可信度之间错综复杂的相互作用，揭示了一些有趣的模式。芝加哥大学副教授李博为该论文的通讯作者。

实验发现，在同时实现效率和可信度方面，量化是目前比剪枝更有效的方法。例如，4-bit 量化模型保留了原始模型的可信度，但模型剪枝会显著降低可信度，即使稀疏度为 50%。此外，在适度的比特范围内进行量化，可以出乎意料地提高某些可信度维度，如道德和公平性。相反，极端量化到非常低的比特水平（3 bit）往往会大大降低可信度。只看良性性能无法发现这种风险的增加，这反过来又要求在实践中进行全面的可信度评估。这些发现最终为同时实现 LLMs 的高实用性、高效率和可信度提出了实用建议。

论文链接：
https://arxiv.org/abs/2403.15447

5.将“有界注意力”带入文生图扩散模型

文本到图像的扩散模型在生成多样化和高质量图像方面展现出了强大的能力。然而，它们往往难以忠实捕捉包含多个主体的复杂输入提示的预期语义。

近来，为了提高用户控制能力，大量的从布局到图像的扩展方法被提出，旨在定位特定 token 所代表的主题。然而，这些方法往往会产生语义不准确的图像，尤其是在处理多个语义或视觉相似的主题时。

为此，特拉维夫大学与 Snap 研究团队共同研究并分析了造成这些局限性的原因。他们发现，主要问题源于去噪过程中主体间不经意的语义泄漏。这种泄漏可归因于扩散模型的注意力层，它往往会混合不同主体的视觉特征。

为了解决这些问题，他们提出了“有界注意力”（Bounded Attention）技术，这是一种无需训练的方法，可在采样过程中限制信息流。有界注意力可以防止主体间的有害信息泄漏，即使在复杂的多主体条件下，也能引导生成以促进每个主体的个性。

通过大量实验，证明了该研究团队的方法能够生成更符合给定提示和布局的复杂主题。

论文链接：
https://arxiv.org/abs/2403.16990
项目地址：
https://omer11a.github.io/bounded-attention/

6.VoiceCraft：零样本语音编辑的文本到语音技术

德克萨斯大学和雷姆布兰德研究团队介绍了一种标记填充神经编解码语言模型 VoiceCraft，它在有声读物、网络视频和播客的语音编辑和零样本文本到语音（TTS）方面都达到了最先进的性能。

Voice Craft 模型采用 Transformer 解码器架构，并引入了一种 token 重新排列程序，该程序结合了因果掩蔽和延迟堆叠技术，可在现有序列中生成语音。在由人类进行评估的语音编辑任务中，VoiceCraft 生成的编辑语音在自然度方面与未经编辑的录音几乎没有区别。在零样本 TTS 方面，该团队推出的模型优于先前的 SOTA 模型，包括 VALLE 和 XTTS-v2。

此外，该团队在具有挑战性的真实数据集上对模型进行了评估，这些数据集包含不同的口音、说话风格、录音条件以及背景噪音和音乐，与其他模型和真实录音相比，Voice Craft 模型表现出色。特别是在语音编辑评估方面，还引入了一个名为 Real Edit 的高质量、高难度和真实的数据集。

论文链接：
https://arxiv.org/abs/2403.16973
项目地址：
https://jasonppy.github.io/VoiceCraft_web/

7.天津大学提出“中医大模型”Qibo

目前，在人工智能领域，大型语言模型（LLMs）已经在医学、法律和金融等多个专业领域的用户意图理解和响应方面取得了显著进步。但是在传统中医（TCM）这一独特领域，由于其理论与现代医学之间的本质区别，以及专业语料资源的缺乏，LLMs 的性能提升面临挑战。

天津大学的研究团队构建和整理了中医药领域的专业语料库，为大型模型赋予中医药理论所特有的专业知识，并成功开发了基于 LLaMA 的 Qibo 模型，这是中医药领域第一个经历了从预训练到监督微调（SFT）的完整训练过程的 LLMs。

此外，该团队还开发了用于评估 LLMs 性能的专用工具 Qibo-benchmark。该工具将为量化和比较不同模型在中医药领域的理解和应用能力提供重要依据，并为未来中医药智能助手的研究方向和实际应用提供指导。

经过充分的实验证明，Qibo 在中医领域具有良好的性能。

论文链接：
https://arxiv.org/abs/2403.16056

8.综述：心理健康大模型

大语言模型（LLMs）在数字健康领域受到了广泛关注，并显示出了其潜力，而其在心理健康领域的应用却一直存在争议。

伦敦大学学院通过研究 LLMs 最新研究的优势和局限性，总结了 LLMs 在心理健康领域的应用情况，并探讨其在心理健康领域的早期筛查、数字干预和其他临床应用所面临的挑战和机遇。根据 PRISMA 指南，该团队研究了 PubMed、DBLP 计算机科学书目和 IEEE Xplore 上发表的英文文章，这些文章发表于 2017 年 1 月 1 日至 2023 年 9 月 1 日之间，重点关注了心理健康和 LLMs。

他们分析了 32 篇文章，包括利用社交媒体数据集进行心理健康分析（13篇）、心理健康聊天机器人（10篇）和其他心理健康应用（9篇）。研究结果表明，LLMs 在心理健康问题检测和通过个性化医疗保健加强远程心理服务方面非常有效。

然而，文本不一致、幻觉内容和缺乏伦理框架等风险也引起了人们对其临床应用的担忧。尽管存在这些挑战，LLMs 的进步凸显了其作为创新临床工具的潜力，因此有必要进一步研究和开发。因此他们也强调，LLMs 应该是专业心理健康服务的补充，而不是替代。

论文链接
https://arxiv.org/abs/2403.15401

9.综述：长视频生成的挑战、方法与展望

视频生成是一个快速发展的研究领域，因其广泛的应用而备受关注。该领域的一个重要方面是长视频的生成，这带来了独特的挑战和机遇。

该研究首次介绍了长视频生成领域的最新进展，并将其归纳为两个关键范式：分而治之时序自回归。

该团队深入探讨了每种范式所采用的常见模型，包括网络设计和调节技术的各个方面。此外，他们还对数据集和评估指标进行了全面概述和分类，这对推进长视频生成研究至关重要。在总结现有研究的同时，还讨论了这一动态领域中新出现的挑战和未来发展方向。

该团队希望本调查报告能成为长视频生成领域研究人员和从业人员的重要参考资料。

论文链接：
https://arxiv.org/abs/2403.16407