【AI视野·今日NLP 自然语言处理论文速览 第五十九期】Fri, 20 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 20 Oct 2023
Totally 74 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

AutoMix: Automatically Mixing Language Models
Authors Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui
云 API 提供商现在提供各种规模和配置的大型语言模型 LLM。虽然这种多样性提供了广泛的选择,但有效利用这些选项来优化计算成本和性能仍然具有挑战性。在这项工作中,我们提出了 AutoMix,这是一种基于较小 LM 输出的近似正确性,战略性地将查询路由到较大 LM 的方法。 AutoMix 的核心是少量镜头自我验证机制,无需训练即可估计其自身输出的可靠性。鉴于验证可能会有噪音,我们在 AutoMix 中使用元验证器来提高这些评估的准确性。我们使用 LLAMA2 13 70B 在五个基于上下文的推理数据集上进行的实验表明,AutoMix 超越了既定基线,将单位成本的增量收益提高了 89 倍。

An Emulator for Fine-Tuning Large Language Models using Small Language Models
Authors Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
广泛使用的语言模型 LM 通常是通过扩展两阶段训练管道来构建的:预训练阶段使用非常大、多样化的文本数据集,有时进行微调,对齐阶段使用目标示例或所需行为的其他规范。虽然人们假设知识和技能来自预训练,并且微调主要过滤这些知识和技能,但这种直觉尚未经过广泛的测试。为了帮助做到这一点,我们引入了一种新颖的技术,用于将这两个阶段中获得的知识和技能解耦,从而能够直接回答以下问题:如果我们将大型模型在预训练期间学到的知识与知识相结合,会发生什么?在微调期间由小模型学习,反之亦然。使用从人类偏好学习的最新发展中衍生出来的基于强化学习的框架,我们引入了模拟微调 EFT,这是一种从近似或模拟结果的分布中进行采样的原则性且实用的方法。不同尺度的预训练和微调。我们对 EFT 的实验表明,扩大微调往往会提高有用性,而扩大预训练往往会提高事实性。除了解耦规模之外,我们还表明,EFT 无需额外培训即可调整竞争行为特征(例如乐于助人和无害)的测试时间。最后,模拟微调的一种特殊情况,我们称之为 LM 放大,通过将大型预训练模型与小型微调模型集成,本质上模拟微调大型预训练模型的结果,从而避免对大型预训练模型进行资源密集型微调。

SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving
Authors Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong
近年来,大型语言模型法学硕士推动了人工智能领域的重大进步,在解决数学问题等广泛任务中展现了令人印象深刻的能力。受基于子目标的方法成功的启发,我们提出了一种名为 textbf SE quential sub textbf G oal textbf O ptimization SEGO 的新颖框架,以增强法学硕士解决数学问题的能力。通过在子目标分解过程和解决问题的概率之间建立联系,SEGO 旨在识别具有理论保证的更好的子目标。为了解决在大型解决方案空间中识别合适子目标的挑战,我们的框架生成特定于问题的子目标,并根据精心设计的标准对其进行调整。将这些优化的子目标纳入策略模型训练中可以显着提高问题解决性能。

On the Representational Capacity of Recurrent Neural Language Models
Authors Franz Nowak, Anej Svete, Li Du, Ryan Cotterell
这项工作研究了基于循环神经网络 RNN 的语言模型 LM 的计算表达能力。 Siegelmann 和 Sontag 1992 年提出了著名的观点,即具有理性权重、隐藏状态和无限计算时间的 RNN 是图灵完备的。然而,除了未加权的语言成员资格之外,语言模型还定义了字符串的权重,并且对 RNN 语言模型和 RLM 的计算能力的分析应该反映这一点。我们将图灵完备性结果扩展到概率情况,展示了具有无限计算时间的合理加权 RLM 如何模拟任何概率图灵机 PTM 。由于在实践中,RLM 是实时工作的,在每个时间步处理一个符号,因此我们将上述结果视为 RLM 表达能力的上限。

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models
Authors Yi Zhou, Jose Camacho Collados, Danushka Bollegala
在之前的工作中,预训练的屏蔽语言模型 MLM 已报告了各种类型的社会偏见。然而,多个潜在因素与 MLM 相关,例如模型大小、训练数据大小、训练目标、预训练数据采样的领域、标记化以及预训练语料库中存在的语言等等。目前尚不清楚哪些因素会影响传销所习得的社会偏见。为了研究模型因素与 MLM 学到的社会偏见之间的关系,以及模型的下游任务绩效,我们对 39 个预训练的 MLM 进行了全面研究,涵盖不同的模型大小、训练目标、标记化方法、训练数据域和语言。

Experimental Narratives: A Comparison of Human Crowdsourced Storytelling and AI Storytelling
Authors Nina Begus
该论文提出了一个框架,该框架结合了行为和计算实验,利用虚构的提示作为研究人类和生成人工智能讲故事中的文化制品和社会偏见的新工具。该研究通过融合叙事学和推理统计的方法,分析了 2019 年 6 月众包工作者创作的 250 个故事以及 2023 年 3 月 GPT 3.5 和 GPT 4 生成的 80 个故事。众包工作者和大型语言模型都对创造和爱上人造人的相同提示做出了反应。所提出的实验范式允许直接比较人类和法学硕士生成的故事讲述。对皮格马利翁式提示的反应证实了皮格马利翁神话在人类和大型语言模型的集体想象中普遍存在。所有征集的叙述都呈现出科学或技术的追求。分析表明,GPT 3.5(尤其是 GPT 4)的叙述在性别角色和性行为方面比人类编写的叙述更加进步。虽然人工智能叙事偶尔可以提供创新的情节曲折,但它们提供的想象力场景和修辞不如人类创作的文本。

A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems
Authors Songbo Hu, Han Zhou, Moy Yuan, Milan Gritta, Guchun Zhang, Ignacio Iacobacci, Anna Korhonen, Ivan Vuli
实现能够在世界多种语言中良好运行的强大语言技术是多语言 NLP 的核心目标。在这项工作中,我们评估并实证分析了多语言任务导向对话 ToD 系统之间存在的任务绩效差异。我们首先定义系统性能的绝对和相对等效性的新定量度量,捕获语言之间和单个语言内部的差异。通过一系列受控实验,我们证明性能差异取决于多种因素:手头的 ToD 任务的性质、底层预训练语言模型、目标语言以及 ToD 注释数据量。我们凭经验证明当前 ToD 系统中存在适应性和内在偏差,例如,使用与英语 ToD 数据完全并行的带注释的 ToD 数据训练阿拉伯语或土耳其语的 ToD 系统仍然表现出下降的 ToD 任务性能。

StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding
Authors Cheng Jiayang, Lin Qiu, Tsz Ho Chan, Tianqing Fang, Weiqi Wang, Chunkit Chan, Dongyu Ru, Qipeng Guo, Hongming Zhang, Yangqiu Song, Yue Zhang, Zheng Zhang
叙述之间的类比是自然语言理解中最关键的能力之一。在本文中,我们通过构建第一个大规模故事级类比语料库 StoryAnalogy 来评估识别和生成类比的能力,其中包含来自不同领域的 24K 个故事对,并根据扩展结构映射理论对两个相似点进行了人工注释。我们设计了一组关于StoryAnalogy的测试,提出了故事级类比识别和生成的第一个评估。有趣的是,我们发现类比识别任务不仅对于句子嵌入模型来说非常具有挑战性,对于最近的大型语言模型LLM(例如ChatGPT和LLaMa)来说也是如此,其中ChatGPT在多项选择问题上仅达到30左右的准确率,而对于人类来说85的准确率。

The Locality and Symmetry of Positional Encodings
Authors Lihu Chen, Ga l Varoquaux, Fabian M. Suchanek
位置编码 PE 用于将词序信息注入到基于转换器的语言模型中。虽然它们可以显着提高句子表示的质量,但它们对语言模型的具体贡献尚未完全理解,特别是考虑到最近发现各种位置编码对词序不敏感。在这项工作中,我们对 textbf 双向掩码语言模型 BERT 风格中的位置编码进行了系统研究,它在三个方面补充了现有工作 1 我们通过识别两个共同属性(局部性和对称性)揭示了 PE 的核心功能 2 我们表明这两个属性与下游任务的性能密切相关 3 我们通过引入两个新的探测任务来量化当前 PE 的弱点,当前 PE 在这两个任务上表现不佳。我们相信这些结果是为基于 Transformer 的语言模型开发更好的 PE 的基础。

Probing LLMs for hate speech detection: strengths and vulnerabilities
Authors Sarthak Roy, Ashish Harshavardhan, Animesh Mukherjee, Punyajoy Saha
最近,社交媒体平台和研究人员努力使用大型语言模型来检测仇恨或有毒语言。然而,这些工作都没有旨在在检测过程中使用解释、附加背景和受害者社区信息。我们利用不同的提示变化,输入信息并在零样本设置中评估大型语言模型,而无需添加任何上下文示例。我们选择三个大型语言模型 GPT 3.5、text davinci 和 Flan T5 以及三个数据集 HateXplain、implicit hat 和 ToxicSpans。我们发现,平均而言,在管道中包含目标信息可将模型性能比整个数据集的基线提高 20 30 倍。在跨数据集的基线上将基本原理解释添加到管道 10 20 中也会产生相当大的影响。此外,我们还进一步提供了这些大型语言模型无法分类并解释其做出决定的原因的错误案例的类型。

Knowledge-Augmented Language Model Verification
Authors Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang
最近的语言模型 LM 在利用参数内化的知识生成文本方面表现出了令人印象深刻的能力。然而,LM 经常对给定的查询生成事实上不正确的响应,因为他们的知识可能不准确、不完整且过时。为了解决这个问题,之前的工作提出使用从外部知识源检索的知识来增强语言模型。然而,由于两个原因,此类方法通常会表现出次优的文本生成性能:1 模型可能无法检索与给定查询相关的知识;2 模型可能无法在生成的文本中忠实地反映检索到的知识。为了克服这些问题,我们建议使用单独的验证器来验证知识增强 LM 的输出和知识,验证器是一个小型 LM,经过训练可以通过指令微调来检测这两类错误。然后,当验证者识别出错误时,我们可以通过检索新知识或生成新文本来纠正它。此外,我们将不同指令的输出与单个验证器结合使用,以增强验证过程的可靠性。我们在多个问答基准上验证了所提出的验证步骤的有效性,其结果表明所提出的验证器有效地识别了检索和生成错误,从而使 LM 能够提供更符合事实的正确输出。

AgentTuning: Enabling Generalized Agent Abilities for LLMs
Authors Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang
开放式大型语言模型法学硕士在各种任务中表现出色,极大地促进了法学硕士的发展。然而,它们在充当代理来处理现实世界中的复杂任务时,远远不如 ChatGPT 和 GPT 4 等商业模型。这些代理任务采用 LLM 作为中央控制器,负责规划、记忆和工具利用,需要细粒度的提示方法和强大的 LLM 才能获得令人满意的性能。尽管已经提出了许多提示方法来完成特定的代理任务,但缺乏专注于提高法学硕士本身的代理能力而不损害其一般能力的研究。在这项工作中,我们提出了 AgentTuning,这是一种简单而通用的方法,可以增强 LLM 的代理能力,同时保持其一般的 LLM 能力。我们构建了 AgentInstruct,一个包含高质量交互轨迹的轻量级指令调整数据集。我们采用混合指令调优策略,将 AgentInstruct 与通用领域的开源指令相结合。 AgentTuning 用于指令调整 Llama 2 系列,从而产生 AgentLM。我们的评估表明,AgentTuning 可以在不影响一般能力的情况下实现法学硕士的代理能力。 AgentLM 70B 在执行看不见的代理任务时可与 GPT 3.5 Turbo 相媲美,展示了通用代理功能。

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents
Authors Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen
当前的手势识别系统主要专注于识别预定义集合内的手势,在将这些手势连接到交互式 GUI 元素或系统功能(例如,将拇指向上手势链接到类似按钮)方面留下了空白。我们推出 GestureGPT,这是一种利用大型语言模型法学硕士的新颖的零镜头手势理解和基础框架。手势描述是根据手势视频中的手部地标坐标制定的,并输入到我们的双代理对话系统中。手势代理破译这些关于交互上下文的描述和查询,例如上下文代理组织和提供的界面、历史、注视数据。在迭代交换之后,手势代理识别用户意图,并将其基于交互功能。我们使用公共第一视图和第三视图手势数据集验证了手势描述模块,并在两个真实世界设置视频流和智能家居物联网控制中测试了整个系统。

Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models
Authors Weize Chen, Xiaoyue Xu, Xu Han, Yankai Lin, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou
参数共享的预训练语言模型 PLM 已成为资源受限环境中的一种成功方法,可大幅降低模型存储和内存成本,而不会显着影响性能。然而,值得注意的是,参数共享并不能减轻与推理相关的计算负担&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值