哈工大SCIR 13篇长文被ACL 2023主会/Findings录用

最新推荐文章于 2023-12-13 22:45:35 发布

zenRRan

最新推荐文章于 2023-12-13 22:45:35 发布

阅读量3k

点赞数

文章标签：人工智能自然语言处理深度学习机器学习神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247519537&idx=3&sn=5e7848e1f9b866bad68a560f48b3feeb&chksm=eb5399a2dc2410b49ea8b8256ac99222fa0a957fd71700837f73e3601f8a126ef83691fc4e51&scene=126&sessionid=0

版权

来自：哈工大SCIR

进NLP群—>加入NLP交流群

ACL 2023 将于2023年7月9-14日在加拿大多伦多举行。ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议，CCF A类会议，由计算语言学协会主办，每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取、问答系统、文本挖掘、机器翻译、语篇语用学、情感分析和意见挖掘、社会计算等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有5篇长文被ACL 2023主会录用，8篇长文被Findings of ACL录用。下面是论文列表及介绍：

题目：UniCoRN: Unified Cognitive Signal Reconstruction bridging cognitive signals and human language

作者：席奴瓦，赵森栋，王昊淳，刘驰，秦兵，刘挺

类型：ACL 2023, Long Paper

从认知信号（如fMRI）中解码文本刺激有助于提高我们对人类语言系统的理解，并且对于构建广泛适用的脑机接口至关重要。然而，现有的研究仅关注于从有限词汇量中解码单个单词级别的fMRI。在本文中，我们首次提出了一种具有Tom Mitchell风格的“计算机读心术”任务fMRI2text，我们使用基于Transformer的模型把大脑成像信号（fMRI）解码成完整的句子。文中引入了UniCoRN模型来专门解决这个任务，通过自监督学习增强认知信号编码器的能力，配合语言模型作为解码器，获得了不错的效果。

题目：Towards Stable Natural Language Understanding via Information Entropy Guided Debiasing

作者：杜理，丁效，孙洲浩，刘挺，秦兵，刘璟烁

类型：ACL 2023, Long Paper

当前的自然语言理解模型虽然在多个数据集上表现出优异性能，部分研究显示，此类模型可能利用文本中与标签存在相关关系的偏置线索做出判断。这使得模型的稳定性下降。针对这一问题，此前研究者已提出一系列去偏置方法。然而，我们的分析显示这些方法可能并未全面识别出数据中潜在的偏置信息，并可能将部分语义信息误认为数据偏置。这影响了去偏置方法的有效性，影响了模型在分布内表现和分布外泛化能力。针对这一点，本文提出利用信息熵指导去偏置过程：本文提出了一个随机偏置检测森林，以最大化模型捕获的偏置与数据中的潜在偏置的互信息；并进一步利用信息熵作为指导，排除识别出的数据偏置中的语义成分。

题目：Controllable Text Generation via Probability Density Estimation in the Latent Space

作者：顾宇轩，冯骁骋，马思成，张凌源，龚恒，钟蔚弘，秦兵

类型：ACL 2023, Long Paper

可控文本生成的近期工作已经探索了从潜在空间进行控制的想法，例如使用特定于属性的分类器进行优化表示或从相关的离散样本中进行采样。然而，它们无法有效地对具有不同属性、高维度和非对称结构的复杂空间进行建模，进而导致后续控制不尽如人意。在这项工作中，我们提出了一种在潜在空间中使用概率密度估计的新型控制框架。我们的方法利用可逆变换函数，即正则化流(Normalizing Flows)，将潜在空间中的复杂分布映射到先验空间中的简单高斯分布。因此，基于可逆变换的双射特性，我们可以在先验空间中执行复杂而灵活的控制，并将控制效果反馈回潜在空间。针对单属性和多属性控制的实验表明，我们的方法在属性相关性和文本质量方面优于现有的最佳模型。后续关于控制强度变化的分析进一步证明了我们控制策略的灵活性。

题目：Towards Higher Pareto Frontier in Multilingual Machine Translation

作者：黄毅翀，冯骁骋，耿昕伟，李宝航，秦兵

类型：ACL 2023, Long Paper

多语言机器翻译近些年已经取得了突破性的进展，然而，不同语言训练语料呈现出明显的长尾分布，这使得多语言机器翻译陷入了帕累托优化的困境，即优化模型在某些语言上的翻译性能会导致其他语言性能的下降。现有的平衡训练策略通过在帕累托性能边界上做权衡，来获得具有最优平均性能的帕累托最优解。不同于前人的工作，我们致力于推动整个帕累托边界，而非在一个帕累托边界上做权衡。为此，我们提出了一种新的训练框架：帕累托互蒸馏。具体来说，帕累托互蒸馏会协同训练两个擅长不同语言的帕累托最优解，允许它们在训练过程中通过知识蒸馏来实时地互相学习、取长补短。并且，我们进一步地设计了一种新的策略：帕累托自动互蒸馏，针对不同语言来自动确定帕累托最优解之间的互学习强度，从而来实现不同帕累托最优解之间的高效沟通，并能提升我们方法的普适性。最终，在WMT和TED数据集上的实验结果证明了我们方法能够显著推动帕累托边界，并取得了高达+2.46个BLEU值的提升。

题目：ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning

作者：徐啸，李北，吴晨飞，曾少彥，Anahita Bhiwandiwalla，‫Shachar Rosenman，Vasudev Lal，车万翔，段楠

类型：ACL 2023, Long Paper

双塔视觉语言模型在各种视觉语言下游任务上都展示出了优越的性能。BridgeTower通过在编码器之间建立桥梁来提高双塔模型的性能，但它对单模态表征的逐层利用十分不足，并且不能灵活地利用不同层次的单模态语义知识。在这项工作中，我们提出了ManagerTower，一个新颖的视觉语言模型架构，它收集并结合了不同层次的单模态预训练专家的见解。每个跨模态层中引入的管理者可以自适应地聚合单模态语义知识，以促进更全面的跨模态对齐和融合。ManagerTower在直接微调和视觉语言预训练的两种设置下都优于已有的强大基线。仅凭400万张图像的视觉语言预训练，ManagerTower就在各种视觉语言下游任务上取得了卓越的表现，特别是在VQAv2测试数据集上取得了79.15%的准确性，在Flickr30K上取得了86.56%IR@1和95.64%TR@1的效果。

题目：I run as fast as a rabbit, can you? A multi-lingual simile dialogue dataset

作者：马龙轩，张伟男，周姝含，孙楚芮，柯昌鑫，刘挺

类型：Findings of ACL 2023, Long Paper

明喻是一种常见的语言现象，通过连接词来比较两个具有共同属性的事件或实体。以往的研究常关注单个句子中的明喻，并且通常限定在实体的比较上。本文关注真实对话场景中的更复杂的明喻现象，提出一个高质量人工标注的英语和中文的明喻对话数据集（MSD），不仅包含事件之间的比较，而且明喻元素可以在不同的说话人和不同的顺序出现。同时，本文根据提出的数据定义了三个明喻任务以及两个对话任务，并且给出了基线结果。实验证明对话中的明喻现象比传统的明喻现象更加困难，需要更好的建模对话上下文来辅助明喻的理解和生成，本文提出的数据集可以帮助研究者进行明喻和对话两方面的研究。

题目：Language Anisotropic Cross-Lingual Model Editing

作者：徐阳，侯宇泰，车万翔，张民

类型：Findings of ACL 2023, Long Paper

多语言预训练模型具有跨语言迁移能力，既能学会在跨语言的场景下处理特定任务的，也能记忆以各种语言描述的事实；但作为深度学习模型，它们还是会在某些特定输入下产生不符合预期的行为。模型编辑（Model Editing）正是一种针对特定输入校正已经训练模型行为的技术，然而现有工作只在单语场景下研究，其方法并不直接适用于多语言模型。

我们认为在考虑跨语言迁移能力的情形下，模型编辑需要把针对特定输入的行为校正传导到输入的各种语言版本上。据此，我们的工作分为三个部分：

1. 定义了跨语言模型编辑任务和相应的评价指标；

2. 提出了一种自然便捷的适配框架，我们认为只要引入平行语料来改造现有单语言模型编辑方法的训练过程，就能使其初步适应跨语言场景，成为基线方法；

3. 考虑到已有工作指出多语言模型处理不同语言时倾向于激活不同的参数子集，我们提出了根据模型编辑时的输入语言来自适应调节欲编辑参数权重的各向异性编辑方法。

在知识探测和自然语言推断场景下的结果表明，单语言模型编辑难以同步编辑输入的其他语言版本，引入平行语料后跨语言性能有明显提升，但不及我们提出的各向异性跨语言模型编辑方法。

题目：CLIPText: A New Paradigm for Zero-shot Text Classification

作者：覃立波，王玮赟，陈麒光，车万翔

类型：Findings of ACL 2023, Long Paper

尽管CLIP模型已经成功应用于零样本视觉语言(VL)任务和计算机视觉(CV)任务中，但很少有人关注其在自然语言任务中的应用。本文探索了CLIP模型在零样本文本分类中的应用。具体来说，我们提出了CLIPTEXT这一新的零样本文本分类范式，将传统的文本分类问题转化为一个可由CLIP处理的图文匹配问题。此外，我们进一步引入提示学习技术来增强CLIPTEXT模型的知识获取能力（PROMPT-CLIPTEXT）。实验结果表明，CLIP的知识可以较好地用于零样本文本分类任务。我们希望这项工作能够吸引更多的研究者关注将VL预训练模型用于语言任务的相关研究。

题目：Explanation Graph Generation via Generative Pre-training over Synthetic Graphs

作者：崔涵，李尚展，张宇，施琦

类型：Findings of ACL 2023, Long Paper

解释图生成任务要求模型根据用户给出的查询生成一段推理图，表征模型内部的推理过程，以提高模型的可解释性。这项任务的主要难点在于，非结构化的用户查询和结构化的解释图之间存在明显的语义结构差异。现有的方法通常采用带有标注的小型下游数据集对模型做微调。然而，由于带有标注的数据集规模有限，这种方法不足以弥补这种差异。在本文中，我们提出了一种用于解释图生成任务的预训练框架EG3P。具体来说，我们提出了一个text2graph形式的预训练任务；并提出了一种“文本-图”对的构造策略，通过自动合成大量语料支持预训练任务的进行。从实验结果上看，我们的EG3P能够显著提高模型在不同的推理任务上生成的图的结构准确性和语义准确性。

题目：Don't Lose Yourself! Empathetic Response Generation via Explicit Self-Other Awareness

作者：赵伟翔，赵妍妍，陆鑫，秦兵

类型：Findings of ACL 2023, Long Paper

作为实现类人聊天机器人的关键步骤，共情回复生成任务已经获得了越来越多的关注。但以前的工作是不完整，不足以引起共情的，因为他们只停留在共情的初始阶段，仅仅通过他人意识感知去模仿他人的感受和想法。然而，他们忽略了将自我意识纳入考虑，即在共情回复过程中考虑自我的观点，这是实现共情的一个关键过程。为此，我们提出用明确的 “自我-他人意识感知"来产生共情回复(EmpSOA)。具体来说，我们设计了三个阶段，即自我-他人区分、自我-他人调控和自我-他人生成，来明确地保持、调节和注入自我和他人意识的信息到共情回复的生成过程。在基准数据集上的自动和人工评估都证明了EmpSOA在产生更高质量的共情回复方面的优越性。

题目：TransESC: Smoothing Emotional Support Conversation via Turn-Level State Transition

作者：赵伟翔，赵妍妍，王世龙，秦兵

类型：Findings of ACL 2023, Long Paper

情绪支持对话（ESC）是一项新兴的、具有挑战性的任务，其目标是减少用户所承受的情感困扰。以前的工作未能在ESC中保持不同对话语句间的顺滑衔接，因为他们忽略了对每个对话转折处的细粒度转移信息的建模。为了解决这个问题，我们提出从语义转移、策略转移和情感转移等三个方面考虑ESC中的转移信息，从而以一种流畅自然的方式驱动对话(TransESC)。具体来说，我们用两步法构建状态转移图，这一过程命名为transfer-then-interact，以掌握这三种类型的转移信息。最后，它们被注入到转移感知的解码器中，以产生更自然有效的情绪支持回复。在基准数据集上的自动和人工评估都证明了TransESC在生成更流畅和有效的支持性回复方面的优越性。

题目：NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in Natural Language Processing

作者：吴婷婷，丁效，唐旻骥，张浩，秦兵，刘挺

类型：Findings of ACL 2023, Long Paper

现实世界中的大规模数据集不可避免地包含标签噪声。深度模型会逐渐过拟合这些噪声标签，降低模型的泛化能力。为缓解噪声的影响，研究者常通过设计带标签噪声的鲁棒学习方法（LNL方法）来获得更好的泛化性能。由于缺乏合适的基准数据集，已有研究常使用合成标签噪声来模拟真实标签噪声。然而，这种近似在实践中并不总是有效的。最近的研究提出了包含真实标签噪声的基准。然而，其中的噪声源可能是单一或模糊的，使其仍不同于现实世界中的数据。为此，我们贡献了NoisywikiHow，一个使用最小监督构建的NLP领域最大规模的数据集。具体来说，受人类认知的启发，我们明确构建了多种噪声来源，以模仿整个标注过程中的人为错误，更加贴近现实世界的噪声。此外，我们提供了多种噪声水平，以支持在噪声数据上的受控实验，使我们能够系统和全面地评估现有的LNL方法。我们在大量的LNL方法上进行了多个维度的实验，获得了新的有趣的发现。

题目：Improved Visual Story Generation with Adaptive Context Modeling

作者：冯掌印，任羽辰，于鑫淼，冯骁骋，唐都钰，史树明，秦兵

类型：Findings of ACL 2023, Long Paper

近两年扩散模型的发展带动了文本到图像生成领域的巨大进步，已经基本能够准确生成和自然语言指令对应的图像。但是当前的扩散模型主要关注生成单张图片，无法生成多张图片，最终形成一个连续的视觉故事。为了能够生成连贯一致的视觉故事，一个自然的想法是在生成当前图片时考虑到历史文本和图片信息。经过观察，我们发现不同于文字信息的上下文连续性，视角和场景的变换会带来图片序列的非连续性，当前图片可能和最相邻的图片不具备相似性，而是和历史中某个不相邻的图片更加相似。因此，我们提出了一种自适应的上下文建模方式来提高生成视觉故事的连贯性，自适应编码能够让模型在训练阶段学会自动捕捉有效的历史图片信息，自适应指导在采样阶段进一步对生成的图片进行约束。在PororoSV和FlintstonesSV两个数据集上的结果显示，我们的模型不仅能够生成更加高质量和连贯的图片故事，同时生成图片中的人物角色更加准确。

本期责任编辑：张伟男

本期编辑：孙洲浩

进NLP群—>加入NLP交流群