实时追踪科研动态丨刘挺等人8.16精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-08-18 11:34:46 发布

阅读量200

点赞数

文章标签：人工智能语言模型深度学习科研考研论文阅读

本文链接：https://blog.csdn.net/AI_Conf/article/details/132358310

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月16日精选新论文列表：

1.The Five-Dollar Model: Generating Game Maps and Sprites from Sentence Embeddings

论文介绍了一个名为"Five-Dollar Model"的轻量级文本到图像生成架构，该模型能够从编码的文本提示中生成低维图像。即使模型和数据集的大小都很小，生成的图像仍能保持文本提示的语义含义。这篇论文将该模型应用于三个小型数据集：像素艺术视频游戏地图、视频游戏角色图像和缩小的表情符号图像，并采用新颖的增强策略来提高模型在这些有限数据集上的性能。研究者使用CLIP VIT-B/32模型对文本-图像对进行余弦相似性评估，来评估模型的性能。

https://www.aminer.cn/pub/64d30f353fda6d7f06f6c9e6/

2.Helping Hands: An Object-Aware Ego-Centric Video Recognition Model

为了增强模型对物体的感知，该模型在训练过程中通过使用配对的标题来预测手的位置、物体的位置和物体的语义标签。在推理时，模型只需要RGB帧作为输入，并且能够追踪和确定物体（尽管并未明确为此进行训练）。通过评估模型在零样本测试中的性能，并将所学的表示用作长期视频理解任务的输入，可以展示出模型学习到的对物体感知的性能。此外，通过在训练中使用有噪声的图像级检测作为伪标签，模型通过视频一致性学习提供更好的边界框，并在相关文本描述中具体描述这些物体。综上所述，该模型可以作为自我中心视频模型的插件替代品，通过视觉-文本对齐提高性能。

https://www.aminer.cn/pub/64dc49933fda6d7f06389f78/

3.Link-Context Learning for Multimodal LLMs

指出了当前的多模态大型语言模型（MLLM）和大型语言模型（LLM）在训练过程中尽管使用了大规模数据集，但仍然存在无法在训练中识别未见过的图像或理解新概念的问题。研究人员提出了Link-Context Learning（LCL）方法，强调从“因果关系推理”中增强MLLM的学习能力。通过提供具有因果链接的演示，LCL引导模型不仅识别类比关系，还理解数据点之间的潜在因果关联，从而更有效地识别未见过的图像和理解新概念。为了评估这种新方法，研究人员介绍了ISEKAI数据集，其中只包含为link-context learning而生成的未见过的图像-标签对。大量实验证明，与普通的MLLM相比，LCL-MLLM在对新概念的link-context learning方面表现出很强的能力。

https://www.aminer.cn/pub/64dc49933fda6d7f06389f5c/

4.Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval

文本-视频检索中，当前的方法在利用预训练的文本-图像基础模型（如CLIP）适应视频领域时面临一个关键问题，即如何有效地利用CLIP的图像编码器捕捉视频中丰富的语义信息。为了解决这个问题，现有方法采用复杂的跨模态建模技术将文本信息融合到视频帧表示中，然而，在大规模检索系统中，这会导致严重的效率问题，因为视频表示必须针对每个文本查询进行在线重新计算。本文中，为了解决这个问题，作者放弃了问题所在的跨模态融合过程，旨在纯粹从视频中学习语义增强的表示，以便可以离线计算视频表示并在不同的文本中重复使用。具体而言，作者首先在CLIP图像编码器中引入了一个空间-时间的“提示立方体”，并在编码器层内迭代地切换它，以有效地将全局的视频语义信息融入帧表示中。然后，作者提出应用辅助视频字幕化的目标来训练帧表示，通过在语义空间中提供细粒度的指导，促进详细的视频语义学习。通过在增强的帧表示上使用简单的时间融合策略（即平均池化），在三个基准数据集（MSR-VTT、MSVD和LSMDC）上实现了最先进的性能。

https://www.aminer.cn/pub/64dc49903fda6d7f06389c6e/

5.Through the Lens of Core Competency: Survey on Evaluation of Large Language Models

文章说明了大型语言模型（LLM）评估面临的问题。首先，传统的自然语言处理（NLP）任务由于LLM的出色性能而变得不足。其次，现有的评估任务难以跟上现实场景中应用范围广泛的LLM。为了解决这些问题，已有研究提出了各种基准来更好地评估LLM。为了阐明学术界和工业界中关于LLM评估的众多任务，作者调查了多篇关于LLM评估的论文。他们总结了LLM的4个核心能力，包括推理、知识、可靠性和安全性。对于每个能力，他们介绍了其定义、相应的基准和指标。在这种能力结构下，类似的任务被合并以反映相应的能力，同时新任务也可以很容易地添加到系统中。最后，他们对LLM评估的未来方向提出了建议。

https://www.aminer.cn/pub/64dc49933fda6d7f06389f68/

6.Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

研究探讨了在自动语音识别（ASR）中使用文本注入的问题。文本注入是指使用非配对的纯文本数据来补充配对的音频文本数据，已经显示出降低词错误率的有希望的改进。该研究还研究了文本注入用于辅助任务（即E2E模型通常执行的非ASR任务）的效果。研究中采用了联合端到端和内部语言模型训练（JEIT）作为文本注入算法，训练了一个能够执行两个辅助任务的ASR模型。第一个辅助任务是大写化，即将文本还原为大写形式。第二个辅助任务是转换预测，试图确定用户是否已经完成了他们在数字助理交互中的对话轮次。研究结果表明，该文本注入方法提高了长尾数据的大写化性能，并改善了转换检测的召回率。

https://www.aminer.cn/pub/64dc49903fda6d7f06389b6c/

7.RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

论文讨论了检索增强的编码器-解码器语言模型在上下文学习方面的能力，并指出了当前最先进的ATLAS模型在上下文学习方面存在的限制。问题主要出现在预训练和测试之间的不匹配，以及上下文长度的限制。为了解决这些问题，作者提出了RAVEN模型，它结合了检索增强的掩码语言建模和前缀语言建模。此外，他们还提出了“融合上下文学习”来增强模型的少样本性能，使模型能够利用更多上下文示例而不需要额外的训练或模型修改。通过大量实验证明，RAVEN明显优于ATLAS，在某些情况下取得了与最先进语言模型相当的结果，尽管参数数量大大减少。这项工作凸显了检索增强的编码器-解码器语言模型在上下文学习方面的潜力，并鼓励进一步研究。

https://www.aminer.cn/pub/64dc49933fda6d7f06389f7c/

8.REFORMS: Reporting Standards for Machine Learning Based Science

本文指出了机器学习在科学研究中的应用越来越多，但与此同时，这些方法的应用也伴随着有效性、可重现性和泛化能力的失败。这些失败可能阻碍科学进展，导致对无效论断的错误共识，并削弱基于机器学习的科学的信誉。该论文还指出，机器学习方法在不同学科中常常以类似的方式应用而失败。基于这一观察，作者的目标是提供清晰的基于机器学习的科学报告标准。通过对过去文献的广泛回顾，作者提出了REFORMS（Reporting Standards For Machine Learning Based Science）清单，包括32个问题和一组指南。REFORMS是在计算机科学、数据科学、数学、社会科学和生物医学科学等19位研究人员的共识基础上开发出来的。REFORMS可以作为研究人员设计和实施研究时的参考资源，审稿人审查论文时的参考依据，以及期刊执行透明度和可重现性标准时的参考依据。

https://www.aminer.cn/pub/64dc49933fda6d7f06389f1b/

9.Backward Reasoning in Large Language Models for Verification

论文介绍了在大型语言模型中使用反向推理进行验证的方法。作者提出了一种新的方法，通过在问题中使用模板并提供候选答案，要求语言模型预测被掩盖的令牌，从而验证候选答案的正确性。作者进一步提出了将正向和反向推理结合起来估计候选答案概率的方法。实验结果表明，该方法在各种推理任务上取得了最先进的性能。

https://www.aminer.cn/pub/64dc49903fda6d7f06389ce0/

10.Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model

作者提出了Dancing Avatar的方法，通过预训练的T2I扩散模型来自动生成每个视频帧，保持上下文相关性。作者解决了在不同姿势下保持人物形象和服装的一致性，并在各种人体动作中保持背景的连续性。为了保证整个视频中人物外貌的一致性，作者设计了一个帧内对齐模块，将文本引导合成的人物知识与预训练的T2I扩散模型相结合。为了保持背景的连续性，作者提出了一个背景对齐流程，结合了分割和图像修复技术的见解。此外，作者提出了一个帧间对齐模块，从自回归流程中获得灵感，增强相邻帧之间的时间一致性。与现有的最先进方法相比，与现有的最先进方法相比，Dancing Avatar在人物和背景的保真度和时间连贯性方面具有显著优势。

https://www.aminer.cn/pub/64dc49903fda6d7f06389cd7/

11.A Survey on Model Compression for Large Language Models

大语言模型（LLMs）的庞大规模和计算需求给实际部署带来的挑战，尤其是在资源有限的环境中。鉴于这些挑战变得越来越重要，模型压缩领域已经成为缓解这些限制的重要研究领域。本文提供了一份全面的调查报告，重点介绍了专门为LLMs定制的模型压缩技术。为了解决高效部署的迫切需求，我们探讨了各种方法论，包括量化、修剪、知识蒸馏等。在这些技术中，我们重点介绍了最新的进展和创新方法，这些都对LLM研究的发展起到重要推动作用。此外，我们还探讨了对压缩LLMs的有效性进行评估的基准策略和评估指标的重要性。通过提供最新发展和实际应用的见解，这份调查报告对研究人员和从业人员都是一份宝贵的资源。随着LLMs的不断发展，这份调查报告旨在促进提高效率和现实世界的适用性，为未来的进展奠定基础

https://www.aminer.cn/pub/64dc49903fda6d7f06389c5f/

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态丨刘挺等人8.16精选新论文，附ChatPaper综述

文本-视频检索中，当前的方法在利用预训练的文本-图像基础模型（如CLIP）适应视频领域时面临一个关键问题，即如何有效地利用CLIP的图像编码器捕捉视频中丰富的语义信息。本文中，为了解决这个问题，作者放弃了问题所在的跨模态融合过程，旨在纯粹从视频中学习语义增强的表示，以便可以离线计算视频表示并在不同的文本中重复使用。此外，我们还探讨了对压缩LLMs的有效性进行评估的基准策略和评估指标的重要性。通过评估模型在零样本测试中的性能，并将所学的表示用作长期视频理解任务的输入，可以展示出模型学习到的对物体感知的性能。
复制链接

扫一扫