实时追踪科研动态|字节、南开提出在线方式为基于大模型的角色生成拟人化个性,11.14精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。

然而,传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。
在这里插入图片描述

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain

2023年11月14日精选新论文列表:

1.Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

这篇论文研究了如何提高多模态基础模型的低级视觉能力。多模态基础模型如 GPT-4V 已经为低级视觉感知和理解任务带来了新的范式,可以响应广泛的自然人类指令。然而,现有基础模型的相关能力仍然初步,需要进一步提高。为了增强这些模型,作者进行了一次大规模的主观实验,收集了大量关于低级视觉的真实人类反馈。此外,为了使基础模型能够稳健地响应不同类型的问题,作者设计了一个 GPT 参与的转换,将这些问题转换为多样式的 200K 指令-响应对。实验结果表明,Q-Instruct 能够一致地提高多个基础模型的低级感知和理解能力。作者预计,他们的数据集可以为未来通用智能感知、理解低级视觉外观和评估视觉质量铺平道路。数据集、模型动物园和示例可以在 https://q-future.github.io/Q-Instruct 上找到。

https://www.aminer.cn/pub/6552df4a939a5f40823a0044/?f=cs

2.Music ControlNet: Multiple Time-varying Controls for Music Generation

这篇论文介绍了Music ControlNet,一种基于扩散的音乐生成模型,可以为生成音频提供多种精确的时间变化控制。与现有的文本到音乐生成模型相比,Music ControlNet更适合于对音乐的时间变化属性(如节拍位置和音乐动态变化)进行精确控制。通过提取来自训练音频的控件并将其与旋律、动态和节奏控件一起用于音频频谱图的微调,该模型能够实现对生成音频的时间变化控制。此外,该模型还允许创作者在时间上仅部分指定控件,以生成符合要求的音乐。实验结果表明,Music ControlNet能够在不同场景中生成与输入控件相符的真实音乐,并且在多项指标上优于现有的音乐生成模型。

https://www.aminer.cn/pub/6552e009939a5f40823b5b23/?f=cs

3.ChatAnything: Facetime Chat with LLM-Enhanced Personas

这篇论文介绍了一种名为ChatAnything的方法,该方法可以生成具有人类特征的虚拟角色,如视觉外观、个性和语气,仅通过文本描述。为了实现这一目标,作者首先利用大语言模型的上下文学习能力,通过精心设计一组系统提示来生成个性。然后,他们提出了两个新颖的概念:声音的混合(MoV)和扩散器的混合(MoD),以产生多样化的声音和外观。通过利用各种预定义语气的文本到语音(TTS)算法,并根据用户提供的文本描述自动选择最匹配的一个,实现了MoV。对于MoD,他们结合了最近流行的文本到图像生成技术和说话人头算法,简化了生成说话对象的过程。最后,作者通过将像素级指导融入人脸关键点,解决了当前生成模型产生的人形对象通常无法被预训练的面部关键点检测器检测到的问题。根据构建的评估数据集,他们验证了面部关键点检测的检测率显著提高,从57.0%增加到92.5%,从而实现了基于生成的语音内容的自动面部动画。论文的代码和更多结果可以在https://chatanything.github.io/上找到。

https://www.aminer.cn/pub/6552df44939a5f408239f6a8/?f=cs

4.To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

这篇论文介绍了如何通过精细视觉指令数据集 LVIS-Instruct4V 和 GPT-4V 的 prompting 来改善视觉指令调整。现有的视觉指令调整方法通常通过用文本描述来引导大型语言模型生成遵循指令的数据,但这些描述通常来源于图像注释,可能非常粗略。此外,在未观察到整个视觉背景的情况下,指令甚至可能与视觉内容相矛盾。为了解决这个问题,论文提出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,该数据集包含 220K 个视觉对齐且上下文感知的指令,这些指令是通过用 LVIS 中的图像提示 GPT-4V 生成的。通过实验验证和案例研究,论文证明了高质量的视觉指令数据可以显著提高最先进的 large multimodal 模型的性能。值得注意的是,通过简单地用我们的 LVIS-Instruct4V 替换 LLaVA-Instruct,我们在大多数具有挑战性的 LMM 基准测试中取得了比 LLaVA 更好的结果。论文在 https://github.com/X2FD/LVIS-INSTRUCT4V 上发布了他们的数据和模型。

https://www.aminer.cn/pub/6552e165939a5f40823de603/?f=cs

5.SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

这篇论文介绍了一种名为SPHINX的多模态大型语言模型(MLLM),通过联合混合模型权重、调整任务和视觉嵌入,实现了更强的视觉语言对齐和多任务能力。在预训练期间,为了避免模型过拟合,作者提出了一种权重混合策略,将使用真实世界和合成数据训练的两个大型语言模型进行混合。通过直接整合两个领域的权重,混合的大型语言模型可以有效地结合多样化的语义,并具有较好的鲁棒性。

此外,为了实现多任务能力,作者将各种任务进行联合视觉指令调整,并设计任务特定的指令以避免任务之间的冲突。除了基本的视觉问题回答,还包括更具有挑战性的任务,如区域级理解、字幕接地、文档布局检测和人体姿态估计等,以实现在不同场景之间的相互增强。此外,作者提出从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入,为语言模型提供更强大的图像表示。

基于所提出的联合混合,SPHINX在各种应用中表现出卓越的多模态理解能力。此外,作者还提出了一种高效的策略,旨在更好地捕捉高分辨率图像的细粒度外观。通过混合不同尺度和高分辨率子图像,SPHINX在现有评估基准上取得了出色的视觉解析和推理性能。作者希望他们的工作可以为未来MLLM研究中的联合混合探索提供启示。代码发布在https://github.com/Alpha-VLLM/LLaMA2-Accessory。

https://www.aminer.cn/pub/6552e167939a5f40823de91c/?f=cs

6.Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

这篇论文介绍了一种名为“Story-to-Motion”的方法,该方法可以从长文本中生成自然的人类运动,有可能改变动画、游戏和电影行业的格局。当角色需要根据长文本描述移动到不同地点并执行特定运动时,就会产生这种新的具有挑战性的任务。这项任务需要将低级控制(轨迹)和高级控制(运动语义)进行融合。虽然以前的角色控制和文本到运动方法已经涉及了相关的方面,但是全面的解决方案仍然难以实现:角色控制方法无法处理文本描述,而文本到运动方法缺乏位置约束,通常产生的运动不稳定。针对这些局限性,我们提出了一种新颖的系统,该系统可以生成与输入文本对齐的可控制的无尽长运动和轨迹。我们的系统利用了当代大型语言模型,作为文本驱动的运动调度器,从长文本中提取一系列(文本,位置,持续时间)对。此外,我们还开发了一种结合了运动匹配、运动语义和轨迹约束的文本驱动的运动检索方案。我们还设计了一种渐进式掩膜变压器,用于解决过渡运动中的常见缺陷,例如不自然的姿势和滑步。除了作为第一个全面的Story-to-Motion解决方案之外,我们的系统还在三个不同的子任务上进行了评估:轨迹跟随、时态动作组合和运动融合,在所有这些任务上都优于以前的最先进的运动合成方法。

https://www.aminer.cn/pub/6552e10a939a5f40823d3194/?f=cs

7.GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

这篇论文介绍了 MM-Navigator,一种基于 GPT-4V 的大型多模态模型,用于零镜头智能手机 GUI 导航任务。通过使用 MM-Navigator,智能手机屏幕可以像人类用户一样进行交互,并确定后续行动以完成给定的指示。研究发现,大型多模态模型(LMMs)在零镜头 GUI 导航方面表现出色,尤其是 GPT-4V,它具有先进的屏幕解释、行动推理和精确行动定位能力。

该论文首先在收集的 iOS 屏幕数据集上对 MM-Navigator 进行了基准测试。根据人类评估,系统在生成合理的行动描述方面具有 91% 的准确率,在执行 iOS 上单步指示的正确行动方面具有 75% 的准确率。此外,该模型还在一部分 Android 屏幕导航数据集上进行了评估,以零镜头的方式优于以前的 GUI 导航器。

该论文的基准测试和详细分析旨在为 GUI 导航任务的未来研究奠定坚实的基础。项目的页面链接为 https://github.com/zzxslp/MM-Navigator。

https://www.aminer.cn/pub/6552e15d939a5f40823dd6eb/?f=cs

8.GOAT: GO to Any Thing

这篇论文介绍了一种名为GOAT(GO到任何事物)的全能导航系统,该系统可以在家庭和仓库等部署场景中自主导航,无缝执行人类操作员直观理解的各项任务。GOAT具有三个关键特性:多模态(可以通过类别标签、目标图像和语言描述来处理目标),终身学习(受益于在同一环境中过去的经验),平台无关(可以快速部署在具有不同结构的机器人上)。通过模块化系统设计和不断增长的实例感知语义记忆,GOAT能够区分同一类别中不同实例,以实现通过图像和语言描述指定的目标导航。在90多个小时的实验比较中,我们在9个不同的家庭中选择了675个目标,涵盖了200多个不同的对象实例,发现GOAT的整体成功率为83%,比以前的方法和消融实验高出32%(绝对改善)。GOAT在环境中的经验越多,成功率越高,从第一个目标的60%成功率提高到探索后的90%。此外,我们还展示了GOAT可以轻松应用于下游任务,如抓取和放置以及社交导航。

https://www.aminer.cn/pub/6552de7a939a5f40823994ef/?f=cs

9.MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

这篇论文介绍了 MEGAVERSE 基准测试,该测试涵盖了大语言模型(LLMs)在多种语言、模态、模型和任务上的评估。近年来,LLMs 的研究取得了快速进展,为自然语言处理(NLP)任务带来了显著进步。然而,大多数研究都集中在英语上,非英语语言的 LLM 构建和评估仍然相对未得到探索。为了更好地理解和评估 LLMs 的能力和局限性,研究人员引入了几个新的 LLMs,并需要对非英语语言进行评估。

该研究旨在扩大 MEGA 基准测试套件,通过加入六个新的数据集,形成 MEGAVERSE 基准。该基准包括 22 个数据集,覆盖 81 种语言,包括低资源的非洲语言。研究人员在 MEGAVERSE 数据集上评估了几个最先进的 LLMs,如 GPT-3.5-Turbo、GPT4、PaLM2 和 Llama2。此外,基准还包括两个多模态数据集,并评估了 LLaVa-v1.5 模型的性能。

实验结果显示,GPT4 和 PaLM2 在各种任务上表现出色,尤其是在低资源语言上。然而,数据污染等问题必须得到解决,才能获得对非英语语言中 LLM 性能的准确评估。

https://www.aminer.cn/pub/6552e116939a5f40823d4965/?f=cs

10.Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

这篇论文研究了一种使用无配对数据为大型语言模型构建通用语音能力的方法。作者在Llama-2模型的基础上,开发了一种端到端的通用语音处理和推理能力,同时保留了广泛的语言模型功能,而无需使用任何精心策划的配对数据。该模型可以利用音频提示作为文本的替代,并维持对话。这种模型还扩展了跨模态能力,例如能够执行语音问答、语音翻译和音频摘要等任务。与之前的语音方法不同,以前的方法是将语言模型扩展到处理有限数量的预指定任务。实验结果表明,我们的端到端方法在响应提示的建模方面与级联系统(语音识别器+语言模型)相当或优于级联系统。此外,与级联不同,我们的方法能够交换文本和音频模态,并利用会话中的先验上下文提供更好的结果。

https://www.aminer.cn/pub/6552df37939a5f408239e3c1/?f=cs

11.Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

这篇论文介绍了一种名为Cappy的小型预训练评分器,用于增强大型多任务语言模型(LLMs)的性能和效率。现有的LLMs如T0、FLAN和OPT-IML在统一指令跟随范式下表现出色,并具有出色的泛化能力,但它们需要大量的计算资源,使得训练和推理变得昂贵且低效。此外,将这些模型适应于下游应用,特别是复杂任务,由于需要进行大量硬件要求的微调,即使使用参数高效的 prompt tuning方法,也常常不可行。此外,最强大的多任务LLMs,如OPT-IML-175B和FLAN-PaLM-540B,由于无法公开访问,严重限制了它们的定制潜力。为解决这些挑战,作者引入了一种预训练小型评分器Cappy,旨在增强多任务LLMs的性能和效率。Cappy仅具有360百万个参数,可以独立于LLM在分类任务上运行,也可以作为LLM的辅助组件,提升其性能。此外,Cappy无需进行LLM微调,也不需要访问其参数,就可以高效地集成下游监督。实验结果表明,在PromptSource的11个语言理解任务上,Cappy的性能优于规模大几个数量级的LLMs。在BIG-Bench的45个复杂任务上,Cappy大大提升了先进的多任务LLM FLAN-T5的性能。此外,Cappy可以与其他LLM适应性技术(包括微调和上下文学习)灵活地配合使用,提供额外的性能提升。

https://www.aminer.cn/pub/654cdfe0939a5f40825017c1/?f=cs

12.Trusted Source Alignment in Large Language Models

这篇论文研究了大型语言模型(LLMs)在处理来自不同可靠性来源的矛盾事实信息时的一个问题。作者提出了一个名为“可信来源对齐(TSA)”的LLM属性,衡量模型在面对不确定或争议时与可信发布者产生的内容对齐的倾向。他们构建了一个基于事实核查文章的TSA评估数据集FactCheckQA,并提出了一种简单的评估TSA的协议,包括响应提取、主张上下文化和提示制定中的偏见等方面的详细设计考虑。将该协议应用于PaLM-2,作者发现随着模型规模的扩大,模型在FactCheckQA上的表现从接近随机提升到最高80%的平衡准确率,与可信来源对齐。

https://www.aminer.cn/pub/6552df11939a5f408239d4a9/?f=cs

13.LayoutPrompter: Awaken the Design Ability of Large Language Models

这篇论文介绍了一种名为LayoutPrompter的方法,该方法利用大型语言模型(LLMs)通过上下文学习来解决现有条件图形布局生成方法在多功能性和数据效率方面的问题。LayoutPrompter由三个关键组件组成:输入输出序列化、动态示例选择和布局排名。实验结果表明,尽管LayoutPrompter方法简单,但在四个公共数据集上的所有现有布局生成任务中,LayoutPrompter在不进行模型训练或微调的情况下,可以与甚至优于最先进的布局生成方法。此外,消融研究还表明,在低数据量的情况下,LayoutPrompter在训练基线方面具有显著优势,进一步证明了LayoutPrompter的数据效率。

https://www.aminer.cn/pub/654d9346939a5f4082587024/?f=cs

14.Model-as-a-Service (MaaS): A Survey

这篇论文对Model-as-a-Service (MaaS)进行了全面调查。由于预训练模型中的参数和数据数量超过一定水平,基础模型(如大型语言模型)可以显著提高下游任务性能,并展现出一些以前没有存在的新兴特殊能力(如深度学习,复杂推理和人类对齐)。基础模型是一种生成式人工智能(GenAI),而模型即服务(MaaS)是一种突破性的范式,它改变了生成式人工智能模型的部署和利用方式。MaaS代表了使用AI技术的范式转变,并为开发人员和用户提供了可扩展和可访问的解决方案,以便在不需要大量基础设施或模型训练专业知识的情况下利用预训练的AI模型。在本文中,我们旨在提供关于MaaS的全面概述,包括其意义及其对各种行业的影响。我们简要回顾了基于云计算的“X-as-a-Service”的发展历程,并介绍了MaaS中的关键技术。我们还回顾了最近关于MaaS的应用研究。最后,我们突出了这个有前景的领域中的几个挑战和未来问题。MaaS是一种新的部署和服务范式,适用于不同的AI模型。我们希望这次回顾能够激发MaaS领域未来的研究。

https://www.aminer.cn/pub/655189a6939a5f4082a5fd0d/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值