【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024_gpt-4v(ision) is a generalist web agent, if ground-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135446851

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 4 Jan 2024
Totally 29 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Multilingual Instruction Tuning With Just a Pinch of Multilinguality
Authors Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal
随着指令调整的大型语言模型法学硕士获得全球采用，他们遵循多种语言指令的能力变得越来越重要。一种有前途的方法是跨语言迁移，其中模型通过对另一种语言进行微调来获得某种语言的特定功能。在这项工作中，我们研究了多语言法学硕士的指令调整过程中的多语言如何影响跨语言的指令遵循。我们首先表明，许多语言甚至从单语言调优中将一些指令跟踪能力转移到其他语言。此外，我们发现英语调优集中只有 40 个多语言示例能够显着改善多语言指令的遵循，无论是在调优期间看到的还是看不见的语言。总的来说，我们观察到，与单语言调整的模型相比，在多语言混合上调整的模型在多种语言中表现出相当或更好的性能，尽管这些语言的训练示例少了 10 倍。最后，我们发现将指令调优集中的语言数量从 1 种增加到 2、3 或 4 种可以提高跨语言泛化能力。

Investigating Semi-Supervised Learning Algorithms in Text Datasets
Authors Himmet Toprak Kesgin, Mehmet Fatih Amasyali
使用大型训练数据集可以增强神经网络的泛化能力。当标记数据较少且未标记数据较多时，半监督学习 SSL 非常有用。使用数据增强的 SSL 方法对于图像数据集最为成功。相比之下，文本没有图像那样一致的增强方法。因此，使用增强的方法在文本数据中不如在图像数据中有效。在本研究中，我们比较了不需要增强的 SSL 算法，包括自训练、协同训练、三重训练和三重训练，但存在分歧。在实验中，我们使用 4 个不同的文本数据集来完成不同的任务。我们通过提出实验问题从多个角度检查了算法，并提出了一些改进建议。

Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling
Authors Himmet Toprak Kesgin, Mehmet Fatih Amasyali
数据增强是提高机器学习模型性能的有效技术。然而，它在自然语言处理 NLP 领域的探索还没有像在计算机视觉领域那样广泛。在本文中，我们提出了一种新颖的文本增强方法，该方法利用基于 Transformer 的 BERT 模型的填充掩模功能。我们的方法涉及迭代地屏蔽句子中的单词并用语言模型预测替换它们。我们已经在各种 NLP 任务上测试了我们提出的方法，发现它在许多情况下都是有效的。我们的结果与现有的增强方法进行了比较。

Physio: An LLM-Based Physiotherapy Advisor
Authors R ben Almeida, Hugo Sousa, Lu s F. Cunha, Nuno Guimar es, Ricardo Campos, Al pio Jorge
最新语言模型的功能增加了将它们集成到现实世界应用程序中的兴趣。然而，这些模型生成看似合理但不正确的文本这一事实在考虑它们在多个领域的使用时构成了限制。医疗保健是一个典型的例子，文本生成的可信度是保障患者健康的硬性要求。在本文中，我们介绍了 Physio，一个基于聊天的物理康复应用程序。 Physio 能够做出初步诊断，同时引用可靠的健康来源来支持所提供的信息。此外，利用外部知识数据库，Physio 可以推荐康复锻炼和非处方药物来缓解症状。通过结合这些功能，Physio 可以利用生成模型的力量进行语言处理，同时还可以根据可靠且可验证的来源调整其响应。

Navigating Uncertainty: Optimizing API Dependency for Hallucination Reduction in Closed-Book Question Answering
Authors Pierre Erbacher, Louis Falissar, Vincent Guigue, Laure Soulier
虽然大型语言模型法学硕士能够积累和恢复知识，但他们仍然容易产生幻觉。尤其是在面对事实问题时，LLM不能仅依靠参数中存储的知识来保证真实和正确的答案。通过搜索外部信息源（例如网络）的能力来增强这些模型，是一种很有前途的基于知识来检索信息的方法。然而，在大量文档中进行搜索会带来额外的计算时间成本。最佳行为是仅当法学硕士对答案没有信心时才查询外部资源。在本文中，我们提出了一种新的法学硕士，能够自我评估是否能够直接回答或需要请求外部工具。我们通过引入幻觉掩蔽机制来研究监督方法，其中使用合本问答任务生成标签。此外，我们建议利用参数有效的微调技术在少量数据上训练我们的模型。我们的模型直接为 78.2 个已知查询提供答案，并选择搜索 77.2 个未知查询。

Cross-target Stance Detection by Exploiting Target Analytical Perspectives
Authors Daijun Ding, Rong Chen, Bowen Zhang, Xu Huang, Li Dong, Xiaowen Zhao, Ge Song, Liwen Jing
交叉目标姿态检测 CTSD 是一项重要任务，它通过利用源目标的注释数据来推断目标目标的姿态。 CTSD 的一种重要方法是提取领域不变特征来弥合多个目标之间的知识差距。然而，对非正式和短文本结构以及隐式表达的分析使领域不变知识的提取变得复杂。在本文中，我们提出了一种用于 CTSD 的多视角提示调整 MPPT 模型，该模型使用分析视角作为知识转移的桥梁。首先，我们开发了一种基于两阶段指令的思想链方法 TsCoT，以引出目标分析视角，并通过基于大语言模型 LLM 制定指令，从多个角度提供自然语言解释 NLE。其次，我们提出了一个多视角提示调整框架 MultiPLN，将 NLE 融合到立场预测器中。

Evaluating Large Language Models in Semantic Parsing for Conversational Question Answering over Knowledge Graphs
Authors Phillip Schneider, Manuel Klettner, Kristiina Jokinen, Elena Simperl, Florian Matthes
对话式问答系统通常依赖语义解析来实现交互式信息检索，这涉及从自然语言输入生成结构化数据库查询。对于关于知识图谱中存储的事实的信息寻求对话，对话话语在称为基于知识的对话问答的过程中被转换为图查询。本文评估了尚未针对此任务进行明确预训练的大型语言模型的性能。通过对广泛的基准数据集进行一系列实验，我们将不同大小的模型与不同的提示技术进行比较，并识别生成的输出中的常见问题类型。

Patterns of Persistence and Diffusibility across World's Languages
Authors Yiyi Chen, Johannes Bjerva
语言相似性可能是由遗传相关性、区域接触、普遍性或偶然性造成的。共词化，即一种使用单一词汇形式来传达多种含义的相似性，尚未得到充分探索。在我们的工作中，我们通过探索谱系稳定性的持久性和接触引起的变化扩散性，阐明了共词化和音系学中跨语言相似性的语言原因。我们构建了包含 1,966 种语言的语义、谱系、语音和地理数据的大规模图表。然后，我们通过调查先前语言学工作中的几个既定假设并提出新的假设，展示了该资源的潜力。我们的结果强烈支持先前在语言文献中建立的假设，同时提供了与另一个假设相矛盾的证据。我们的大规模资源可供跨学科的进一步研究，例如

Predicting challenge moments from students' discourse: A comparison of GPT-4 to two traditional natural language processing approaches
Authors Wannapon Suraworachet, Jennifer Seon, Mutlu Cukurova
有效的协作需要团体战略性地自我调节以克服挑战。研究表明，由于成员对可能受益于外部支持的挑战的看法存在差异，团体可能无法进行监管。在这项研究中，我们研究了利用三种不同的自然语言处理模型（基于专家知识规则的模型、监督机器学习 ML 模型和大型语言模型 LLM）在挑战检测和挑战维度识别认知、元认知、情感和技术方面的潜力。对学生话语中的其他挑战进行了调查。结果表明，与基于规则的方法相比，有监督的 ML 和 LLM 方法在这两项任务中都表现得相当好，后者的功效在很大程度上依赖于专家设计的特征。本文广泛讨论了自动检测和支持学生协作学习活动中挑战时刻的三种方法的性能。它认为，尽管法学硕士提供了许多优势，但由于缺乏可靠性以及有效性评估、隐私和虚构等问题，它们不太可能成为解决社会共享学习监管的检测和反馈提供问题的灵丹妙药。

MLPs Compass: What is learned when MLPs are combined with PLMs?
Authors Li Zhou, Wenyu Chen, Yong Cao, Dingyi Zeng, Wanlong Liu, Hong Qu
虽然基于 Transformer 的预训练语言模型及其变体表现出强大的语义表示能力，但理解从 PLM 的附加组件中获得的信息增益仍然是该领域的一个悬而未决的问题。最近证明多层感知器 MLP 模块具有强大的结构捕获能力，甚至优于图神经网络 GNN，本文旨在量化简单的 MLP 是否可以进一步增强 PLM 捕获语言信息的强大能力。具体来说，我们设计了一个简单而有效的探测框架，其中包含基于 BERT 结构的 MLP 组件，并进行了广泛的实验，涵盖跨越三个不同语言级别的 10 个探测任务。实验结果表明，MLP 确实可以增强 PLM 对语言结构的理解。

Social Media Ready Caption Generation for Brands
Authors Himanshu Maheshwari, Koustava Goswami, Apoorv Saxena, Balaji Vasan Srinivasan
社交媒体广告是品牌营销的关键，旨在通过迷人的标题、图片或徽标来吸引消费者。虽然之前的研究主要集中在为一般图像生成标题，但将品牌个性融入社交媒体标题中仍有待探索。品牌个性被证明会影响消费者的行为和社会互动，因此被证明是营销策略的一个关键方面。当前的开源多模式法学硕士并不直接适合这项任务。因此，我们提出了一种管道解决方案，帮助品牌创建与形象和品牌个性相一致的引人入胜的社交媒体标题。我们的架构基于两部分：第一部分包含图像字幕模型，该模型接收品牌想要在线发布的图像并提供简单的英文标题；第二部分接收生成的标题以及目标品牌个性，以及输出符合社交媒体个性的吸引人的标题。除了品牌个性之外，我们的系统还使用户能够灵活地提供他们希望标题包含的主题标签、Instagram 用户名、URL 和命名实体，从而使标题在语义上与社交媒体用户名更加相关。

PLLaMa: An Open-source Large Language Model for Plant Science
Authors Xianjun Yang, Junfeng Gao, Wenxin Xue, Erik Alexandersson
大型语言模型法学硕士在理解各个领域的自然语言并与之交互方面表现出了卓越的能力。然而，由于缺乏特定的专业知识，它们的有效性在需要高精度的专业领域（例如植物科学）受到限制。本文介绍了 PLLaMa，这是一种从 LLaMa 2 发展而来的开源语言模型。它通过综合数据库得到增强，其中包含超过 150 万篇植物科学学术文章。这一发展极大地丰富了 PLLaMa 在植物和农业科学方面的丰富知识和熟练程度。我们的初步测试涉及与植物和农业相关的特定数据集，结果表明 PLLaMa 大大提高了对植物科学相关主题的理解。此外，我们还组建了一个国际专业小组，包括植物科学家、农业工程师和植物育种家。该团队在验证 PLLaMa 对各种学术询问的答复的准确性方面发挥着至关重要的作用，确保其在该领域的有效和可靠的应用。为了支持进一步的研究和开发，我们向科学界开放了模型的检查点和源代码。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models
Authors Rita Frieske, Bertram E. Shi
幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究，但之前还没有在自动语音识别中进行过研究。在这里，我们将 ASR 中的幻觉定义为由模型生成的转录，这些转录在语义上与源话语无关，但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明，常用的指标（例如单词错误率）无法区分幻觉模型和非幻觉模型。为了解决这个问题，我们提出了一种基于扰动的方法，用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性，该方法不需要访问训练数据集。我们证明，这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系，以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架，通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse
Authors Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang, Jing Ma
社交媒体的指数级增长深刻改变了信息的创建、传播和吸收方式，超越了数字时代的任何先例。遗憾的是，这种爆炸式增长也导致了网上表情包滥用的大幅增加。评估模因的负面影响尤其具有挑战性，因为它们通常具有微妙和隐含的含义，不能通过公开的文本和图像直接传达。有鉴于此，大型多模态模型 LMM 因其在处理各种多模态任务方面的卓越能力而成为人们关注的焦点。为了应对这一发展，我们的论文旨在彻底检查各种 LMM 的能力，例如GPT 4V 用于辨别和应对模因中表现的社会虐待的细微差别。我们引入了综合性模因基准 GOAT Bench，其中包含超过 6K 种不同的模因，涵盖了隐性仇恨言论、性别歧视和网络欺凌等主题。利用 GOAT Bench，我们深入研究了 LMM 准确评估仇恨、厌女症、攻击性、讽刺和有害内容。我们对一系列 LMM 进行的广泛实验表明，当前模型仍然表现出安全意识的缺陷，对各种形式的隐性滥用表现出不敏感。我们认为这种缺陷是实现安全人工智能的关键障碍。

A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
Authors Wei Ai, FuChen Zhang, Tao Meng, YunTao Shou, HongEn Shao, Keqin Li
在人机交互方面，正确理解用户在对话中的情绪状态变得越来越重要，因此多模态情绪识别MER的任务开始受到更多关注。然而，现有的情感分类方法通常只执行一次分类。在单轮分类中句子很可能被错误分类。以往的工作通常忽略融合过程中不同形态特征之间的异同。为了解决上述问题，我们提出了一种基于图对比学习 TS GCL 的两阶段情感识别模型。首先，我们使用不同的预处理方式对原始数据集进行编码。其次，针对这三种模态数据与其他结构引入图对比学习 GCL 策略，以学习模态内部和之间的相似性和差异。最后，我们使用 MLP 两次来实现最终的情感分类。这种分阶段的分类方法可以帮助模型更好地关注不同层次的情感信息，从而提高模型的性能。

A First Look at Information Highlighting in Stack Overflow Answers
Authors Shahla Shaan Ahmed 1 , Shaowei Wang 1 , Yuan Tian 2 , Tse Hsun Peter Chen 3 , Haoxiang Zhang 4 1 Department of Computer Science, University of Manitoba, Canada, 2 School of Computing, Queen s University, Canada, 3 Department of Computer Science and Software Engineering, Concordia University, Canada, 4 Huawei, Canada
背景浏览 Stack Overflow SO 的知识仍然具有挑战性。为了使帖子对用户来说生动，SO 允许用户使用 Markdown 或 HTML 编写和编辑帖子，以便用户可以利用各种格式样式（例如粗体、斜体和代码）来突出显示重要信息。尽管如此，对突出信息的研究仍然有限。目标我们在最近的研究中对 SO 答案中突出显示的信息进行了首次大规模探索性研究。为了扩展我们之前的研究，我们开发了使用最初为命名实体识别任务设计的神经网络架构自动推荐具有格式化样式的突出显示内容的方法。方法在本文中，我们研究了 Stack Overflow 上的 31,169,429 个答案。对于训练推荐模型，我们使用从 SO 答案中收集的信息突出显示数据集，为每种格式（即粗体、斜体、代码和标题）选择 CNN 和 BERT 模型。结果我们基于 CNN 架构的模型实现了 0.71 到 0.82 的精度。用于自动代码内容突出显示的训练模型的召回率为 0.73，F1 分数为 0.71，优于其他格式样式的训练模型。 BERT 模型的召回率和 F1 分数甚至比 CNN 模型更低。我们对失败案例的分析表明，大多数失败案例都缺少识别，即模型错过了应该突出显示的内容，因为模型倾向于学习频繁突出显示的单词，而努力学习不太频繁的单词。

Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation
Authors Walid Saba, Suzanne Wendelken, James. Shanahan
电子健康记录的总结 EHR 可以大大减少患者和医务人员的屏幕时间。近年来，电子病历的总结已经采用了使用最先进的神经模型的机器学习管道。然而，这些模型产生的结果不够充分，这是由于难以获得足够的注释数据进行训练。此外，由于现代大型语言模型法学硕士中的注意力机制在输入大小方面增加了二次复杂度，因此在摘要中考虑 EHR 全部内容的要求导致了性能不佳。我们在这里提出了一种方法，通过结合语义搜索、检索增强生成 RAG 和使用最新的法学硕士的问题回答来减轻这些缺点。在我们的方法中，总结是提取主题专家中小企业认为重要的特定问题的答案。

To Diverge or Not to Diverge: A Morphosyntactic Perspective on Machine Translation vs Human Translation
Authors Jiaming Luo, Colin Cherry, George Foster
我们通过形态句法差异的视角，对机器翻译 MT 与人类翻译 HT 进行大规模细粒度比较分析。在三种语言对和两种定义为源语言和目标语言之间结构差异的分歧类型中，机器翻译始终比 HT 更加保守，形态句法多样性更少，模式更趋同，并且一对一的比对更多。通过对不同解码算法的分析，我们将这种差异归因于波束搜索的使用，该搜索使 MT 偏向于更收敛的模式。当收敛模式在训练数据中出现大约 50 次时，这种偏差会被放大最多。

Quantifying the Uniqueness of Donald Trump in Presidential Discourse
Authors Karen Zhou, Alexander A. Meitus, Milo Chase, Grace Wang, Anne Mykland, William Howell, Chenhao Tan
唐纳德·特朗普的言论是否与其他总统不同？如果有，这些差异是否仅限于任何单一的沟通媒介？为了研究这些问题，本文引入了一种基于大型语言模型的新颖的独特性度量，开发了一个用于分裂言论的新词典，并提出了一个比较政治对手词汇特征的框架。将这些工具应用于各种总统演讲语料库，我们发现大量证据表明特朗普的演讲模式与近代历史上所有主要政党总统候选人的演讲模式有所不同。一些值得注意的发现包括特朗普针对其政治对手使用特别具有分裂性和敌对性的语言，以及他重复强调的模式。此外，特朗普比他的共和党同僚更加独特，他们的独特价值观与民主党的价值观相对更接近。

Theoretical guarantees on the best-of-n alignment policy
Authors Ahmad Beirami, Alekh Agarwal, Jonathan Berant, Alexander D Amour, Jacob Eisenstein, Chirag Nagpal, Ananda Theertha Suresh
对齐生成模型的一种简单而有效的方法是最好的 n 个策略，其中从基本策略中抽取 n 个样本，并根据奖励函数进行排名，并选择排名最高的样本。文献中常用的分析表达式声称，n 个最佳策略与基本策略之间的 KL 散度等于 log n n 1 n。我们反驳了这一说法的有效性，并证明它是实际 KL 散度的上限。我们还探讨了不同制度下这个上限的严格程度。

A Vision Check-up for Language Models
Authors Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba
学习对字符串之间的关系进行建模可以教会大型语言模型法学硕士关于视觉世界的知识我们系统地评估法学硕士生成和识别各种日益复杂的视觉概念的能力，然后演示如何使用以下模型来训练初步的视觉表示学习系统文本。由于语言模型缺乏以像素的形式消费或输出视觉信息的能力，因此我们在研究中使用代码来表示图像。尽管 LLM 生成的图像看起来不像自然图像，但图像生成的结果以及模型纠正这些生成图像的能力表明，字符串的精确建模可以向语言模型传授有关视觉世界的许多方面的知识。

VGA: Vision and Graph Fused Attention Network for Rumor Detection
Authors Lin Bai, Caiyan Jia, Ziying Song, Chaoqun Cui
随着社交媒体的发展，谣言在社交媒体平台上广泛传播，给社会造成了巨大危害。除了文本信息之外，许多谣言还使用经过处理的图像或隐藏图像中的文本信息来欺骗人们并避免被检测到，这使得多模态谣言检测成为一个关键问题。大多数多模态谣言检测方法主要集中于提取来源声明及其相应图像的特征，而忽略了谣言的评论及其传播结构。这些评论和结构蕴含着群众的智慧，并被证明对于揭穿谣言至关重要。而且，这些方法通常仅以基本方式提取视觉特征，很少考虑图像中的篡改或文本信息。因此，在本研究中，我们提出了一种新颖的视觉和图融合注意力网络VGA用于谣言检测，利用帖子之间的传播结构来获取人群意见，并进一步探索视觉篡改特征以及隐藏在图像中的文本信息。

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope
Authors Jun Yan He, Zhi Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Yusen Hu, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou
本文介绍了 WordArt Designer API，这是一种利用 ModelScope 上的大型语言模型法学硕士进行用户驱动的艺术排版合成的新颖框架。我们通过提供动态、自适应且计算高效的传统刚性模板替代方案来解决为非专业人士简化艺术排版的挑战。我们的方法利用法学硕士的力量来理解和解释用户输入，促进更直观的设计过程。我们通过各种案例研究展示用户如何表达他们的审美偏好和功能需求，然后系统将其转化为独特且富有创意的版式设计。我们的评估表明，与现有系统相比，用户满意度、设计灵活性和创意表达方面有了显着改善。

Can AI Be as Creative as Humans?
Authors Haonan Wang, James Zou, Michael Mozer, Linjun Zhang, Anirudh Goyal, Alex Lamb, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi
创造力是社会进步和创新的基石，但对其评估仍然是一项复杂且往往主观的努力。随着先进的生成式人工智能模型的兴起，这些模型能够完成曾经为人类创造力所保留的任务，对人工智能创造性潜力的研究对于其负责任的开发和应用变得势在必行。本文通过引入一个称为相对创造力的新概念来解决定义和评估创造力的复杂性。我们不再试图普遍定义创造力，而是将焦点转向人工智能是否可以与假设的人类的创造力相匹配。这种观点从图灵测试中汲取灵感，并对其进行扩展以解决评估创造力所固有的挑战和主观性。这种方法论的转变促进了对人工智能创造力的统计量化评估，我们将其称为统计创造力。这种方法可以将人工智能的创造力与特定人类群体的创造力进行直接比较。在此基础上，我们讨论了统计创造力在当代瞬发条件自回归模型中的应用。除了定义和分析创造力的衡量标准之外，我们还引入了可行的培训指南，有效地弥合了创造力的理论量化和实际模型培训之间的差距。

Large Language Model Capabilities in Perioperative Risk Prediction and Prognostication
Authors Philip Chung, Christine T Fong, Andrew M Walters, Nima Aghaeepour, Meliha Yetisgen, Vikas N O Reilly Shah
我们研究通用领域大语言模型（例如 GPT 4 Turbo）是否可以使用手术描述和从电子健康记录中得出的患者临床记录来执行风险分层并预测术后结果测量。我们检查了 ASA 身体状况分类、入院、ICU 入院、计划外入院、医院死亡率、PACU 第一阶段持续时间、住院时间和 ICU 持续时间等 8 项不同任务的预测性能。很少的镜头和思路提示可以提高某些任务的预测性能。我们的 ASA 身体状况分类 F1 得分为 0.50，入住 ICU 的 F1 得分为 0.81，住院死亡率的 F1 得分为 0.86。所有提示策略在持续时间预测任务上的表现普遍都很差。

GPT-4V(ision) is a Generalist Web Agent, if Grounded
Authors Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su
大型多模态模型 LMM 的最新发展，特别是 GPT 4V ision 和 Gemini，已经迅速扩展了多模态模型的能力边界，超越了图像字幕和视觉问答等传统任务。在这项工作中，我们探索了像 GPT 4V 这样的 LMM 作为通用网络代理的潜力，它可以遵循自然语言指令来完成任何给定网站上的任务。我们提出了 SEEACT，这是一种通用网络代理，它利用 LMM 的力量来实现集成的视觉理解和在网络上的操作。我们对最近的 MIND2WEB 基准进行评估。除了对缓存网站进行标准离线评估之外，我们还通过开发允许在实时网站上运行 Web 代理的工具来启用新的在线评估设置。我们表明，GPT 4V 为网络代理提供了巨大的潜力，如果我们手动将其文本计划转化为网站上的操作，它可以成功完成实时网站上的 50 项任务。这大大优于纯文本法学硕士（如 GPT 4）或专门针对网络代理进行微调的较小模型 FLAN T5 和 BLIP 2。然而，接地仍然是一个重大挑战。现有的 LMM 基础策略（例如标记提示集）对于 Web 代理来说并不有效，而我们在本文中开发的最佳基础策略同时利用了 HTML 文本和视觉效果。

MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries
Authors Akash Ghosh, Arkadeep Acharya, Prince Jha, Aniket Gaudgaul, Rajdeep Majumdar, Sriparna Saha, Aman Chadha, Raghav Jain, Setu Sinha, Shivani Agarwal
在医疗保健领域，总结患者提出的医疗问题对于改善医患互动和医疗决策至关重要。尽管医学数据的复杂性和数量不断增加，但该领域当前的研究主要集中在基于文本的方法，忽视了视觉线索的整合。此外，之前在医学问题总结领域的工作仅限于英语。这项工作介绍了在低资源环境下对代码混合输入进行多模态医学问题总结的任务。为了解决这一差距，我们引入了多模态医学编码混合问题总结 MMCQS 数据集，该数据集将印地语英语编码混合医学查询与视觉辅助工具相结合。这种整合丰富了患者医疗状况的表现，提供了更全面的视角。我们还提出了一个名为 MedSumm 的框架，该框架利用 LLM 和 VLM 的力量来完成此任务。通过利用我们的 MMCQS 数据集，我们展示了整合图像中的视觉信息以改进医学详细摘要的创建的价值。这种多模式策略不仅改善了医疗决策，还促进了对患者查询的更深入理解，为未来探索个性化和响应式医疗护理铺平了道路。

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记，将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模，我们采用了名为令牌转换器的神经转换器来进行语义令牌预测，受益于其硬单调对齐约束。随后，非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外，参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性，同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明，我们的模型在语音质量和说话者相似度方面（无论是客观还是主观）都超过了基线。

Natural Language Processing and Multimodal Stock Price Prediction
Authors Kevin Taylor, Jerry Ng
在财务决策领域，预测股票价格至关重要。长短期记忆网络 LSTM、支持向量机 SVM 和自然语言处理 NLP 模型等人工智能技术通常用于预测所述价格。与传统使用原始货币价值不同，本文利用股票百分比变化作为训练数据，重点分析公开发布的新闻文章。选择百分比变化的目的是为模型提供有关价格波动的重要性和总体价格变化对给定股票影响的背景信息。该研究采用专门的 BERT 自然语言处理模型来预测股票价格趋势，特别强调各种数据模式。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com