【AI视野·今日NLP 自然语言处理论文速览第三十八期】Thu, 21 Sep 2023

hitrjj

已于 2023-09-23 18:23:49 修改

阅读量1.6k

点赞数

分类专栏： NLPer NLP Papers 文章标签：人工智能自然语言处理 NLP NLPer LLM

于 2023-09-22 21:21:32 首次发布

本文链接：https://blog.csdn.net/u014636245/article/details/133186546

版权

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 21 Sep 2023
Totally 57 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Chain-of-Verification Reduces Hallucination in Large Language Models
Authors Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston
生成看似合理但不正确的事实信息（称为幻觉）是大型语言模型中尚未解决的问题。我们研究语言模型仔细考虑其给出的响应以纠正错误的能力。我们开发了验证链 CoVe 方法，模型首先 i 起草初始响应，然后 ii 计划验证问题以对其草案进行事实核查 iii 独立回答这些问题，这样答案就不会受到其他响应的影响，iv 生成最终经过验证的响应。

Controlled Generation with Prompt Insertion for Natural Language Explanations in Grammatical Error Correction
Authors Masahiro Kaneko, Naoaki Okazaki
在语法错误纠正GEC中，确保用户理解纠正原因至关重要。现有的研究提出了关于纠正基础的标记、例子和提示，但没有直接解释纠正的原因。尽管已经针对各种任务提出了使用大型语言模型 LLM 提供自然语言直接解释的方法，但 GEC 不存在这样的方法。生成 GEC 校正的解释涉及对齐输入和输出标记、识别校正点并一致地呈现相应的解释。然而，指定复杂的格式来生成解释并不简单，因为通过提示很难显式控制生成。本研究引入了一种称为“Prompt Insertion PI 控制生成”的方法，以便法学硕士可以用自然语言解释更正的原因。在PI中，LLM首先纠正输入文本，然后我们根据规则自动提取纠正点。提取的校正点作为提示依次插入LLM的解释输出中，指导LLM生成校正点的解释。我们还通过注释 NUCLE、CoNLL2013 和 CoNLL2014 创建了可解释的修正原因 GEC XGEC 数据集。

You Only Look at Screens: Multimodal Chain-of-Action Agents
Authors Zhuosheng Zhan, Aston Zhang
自主用户界面 UI 代理旨在通过与用户界面交互而无需手动干预来促进任务自动化。最近的研究调查了大型语言模型法学硕士在不同环境中有效参与的能力。为了满足法学硕士的输入输出要求，现有的方法是在沙箱设置下开发的，它们依赖外部工具和特定于应用程序的 API 将环境解析为文本元素并解释预测的操作。因此，这些方法经常面临推理效率低下和错误传播风险的问题。为了缓解这些挑战，我们引入了 Auto UI，这是一种直接与界面交互的多模式解决方案，绕过了环境解析的需要或对应用程序相关 API 的依赖。此外，我们提出了一种行动链技术，利用一系列中间的先前行动历史和未来行动计划来帮助代理决定执行什么行动。我们在新的设备控制基准 AITW 上评估我们的方法，该基准具有 30K 独特指令，涵盖应用程序操作、网络搜索和网络购物等多步骤任务。实验结果表明，Auto UI 实现了最先进的性能，动作类型预测准确度为 90 ，总体动作成功率为 74 。

Kosmos-2.5: A Multimodal Literate Model
Authors Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei
我们推出了 Kosmos 2.5，这是一种用于机器阅读文本密集型图像的多模式读写模型。 Kosmos 2.5 在大规模文本密集型图像上进行了预训练，在两个不同但协作的转录任务中表现出色：1 生成空间感知文本块，其中每个文本块在图像中分配其空间坐标；2 生成捕获样式和内容的结构化文本输出。结构转换为 Markdown 格式。这种统一的多模式读写能力是通过共享 Transformer 架构、特定于任务的提示和灵活的文本表示来实现的。我们在端到端文档级文本识别和图像到 Markdown 文本生成方面评估 Kosmos 2.5。此外，该模型可以通过监督微调轻松适应任何具有不同提示的文本密集型图像理解任务，使其成为涉及文本丰富图像的现实世界应用的通用工具。

Safurai 001: New Qualitative Approach for Code LLM Evaluation
Authors Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo
本文介绍了 Safurai 001，一种新的大型语言模型法学硕士，在编码辅助领域具有巨大潜力。在编码 LLM 最新进展的推动下，Safurai 001 在性能方面可与 WizardCoder Xu et al., 2023 、PanguCoder Shen et al., 2023 和 Phi 1 Gunasekar et al., 2023 等最新模型竞争，但旨在提供更具对话性的交互。通过利用数据工程的进步，包括最新的数据转换技术以及即时工程和指令调整，这种新模型有望与最近的封闭和开源开发并驾齐驱。认识到编码 LLM 需要有效的评估指标，本文还介绍了基于 GPT4 的 MultiParameters，这是一种评估基准，利用各种参数来全面了解模型的功能和性能。

Long-Form End-to-End Speech Translation via Latent Alignment Segmentation
Authors Peter Pol k, Ond ej Bojar
当前的同步语音翻译模型只能处理长达几秒钟的音频。当代数据集根据人类注释的转录本和翻译提供了对句子的预言分割。然而，在现实世界中无法实现句子的分割。当前的语音分割方法要么提供较差的分割质量，要么必须以延迟换取质量。在本文中，我们提出了一种用于低延迟端到端语音翻译的新颖分割方法。我们利用现有的语音翻译编码器解码器架构和 ST CTC，并表明它可以在没有监督或附加参数的情况下执行分割任务。据我们所知，我们的方法是第一个允许实际端到端同步语音翻译的方法，因为同一模型同时用于翻译和分割。

Studying Lobby Influence in the European Parliament
Authors Aswin Suresh, Lazar Radojevic, Francesco Salvi, Antoine Magron, Victor Kristof, Matthias Grossglauser
我们提出了一种基于自然语言处理 NLP 的方法，用于研究利益集团游说团体在欧洲议会 EP 立法过程中的影响。我们收集并分析游说立场文件和欧洲议会议员的演讲的新颖数据集。通过根据语义相似性和蕴涵比较这些文本，我们能够发现欧洲议会议员和游说团体之间可解释的联系。在缺乏此类链接的真实数据集的情况下，我们通过将发现的链接与我们策划的欧洲议会议员和游说者之间的转发链接数据集以及公开披露的欧洲议会议员会议进行比较来进行间接验证。我们最好的方法达到了 0.77 的 AUC 分数，并且表现明显优于几个基线。此外，对相关游说团体和欧洲议会议员政治团体之间发现的联系进行汇总分析，符合这些团体意识形态的期望，例如，中左翼团体与社会事业相关。

Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff
Authors Peter Pol k, Brian Yan, Shinji Watanabe, Alex Waibel, Ond ej Bojar
块式自注意力编码器模型最近已成为一种有前途的同步语音翻译端到端方法。这些模型采用带有假设可靠性评分的分块波束搜索来确定何时在进一步翻译之前等待更多输入语音。然而，该方法维持多个假设，直到整个语音输入被消耗为止，该方案不能直接向用户显示单个文本增量翻译。此外，该方法缺乏控制质量与延迟权衡的机制。我们提出了一种改进的增量分块波束搜索，结合了本地协议或保持 n 策略以进行质量延迟控制。

GECTurk: Grammatical Error Correction and Detection Dataset for Turkish
Authors Atakan Kara, Farrin Marouf Sofian, Andrew Bond, G zde G l ahin
事实证明，语法错误检测和纠正 GEC 工具对于母语人士和第二语言学习者非常有用。开发此类工具需要大量并行的带注释的数据，而这对于大多数语言来说是不可用的。合成数据生成是克服此类数据稀缺性的常见做法。然而，对于像土耳其语这样形态丰富的语言来说，这并不简单，因为复杂的书写规则需要语音、形态和句法信息。在这项工作中，我们为土耳其语提供了一个灵活且可扩展的合成数据生成管道，涵盖 20 多个专家策划的语法和拼写规则（又称，通过复杂的转换函数实现的编写规则）。使用此管道，我们从专业编辑的文章中得出 130,000 个高质量的平行句子。此外，我们通过手动注释一组电影评论来创建更真实的测试集。我们实现了三个基线，将任务制定为 i 神经机器翻译、ii 序列标记和 iii 使用预训练解码器模型进行前缀调整，取得了很好的结果。此外，我们对域外数据集进行了详尽的实验，以深入了解所提出方法的可转移性和鲁棒性。我们的结果表明，我们的语料库 GECTurk 质量很高，并且允许在域外环境中进行知识转移。

TRAVID: An End-to-End Video Translation Framework
Authors Prottay Kumar Adhikary, Bandaru Sugandhi, Subhojit Ghimire, Santanu Pal, Partha Pakray
在当今全球化的世界中，与来自不同语言背景的人们进行有效的沟通变得越来越重要。虽然传统的语言翻译方法（例如书面文本或纯语音翻译）可以完成任务，但它们往往无法捕捉通过面部表情和嘴唇动作等非语言线索传达的完整上下文和微妙信息。在本文中，我们提出了一种端到端视频翻译系统，该系统不仅可以翻译口语，还可以将翻译后的语音与说话者的嘴唇运动同步。我们的系统专注于将教育讲座翻译成各种印度语言，其设计目的是即使在资源匮乏的系统环境中也能发挥作用。通过结合与目标语言一致的嘴唇动作，并使用语音克隆技术将其与说话者的声音进行匹配，我们的应用程序为学生和用户提供了增强的体验。

DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services
Authors Shengbin Yue, Wei Chen, Siyuan Wang, Bingxuan Li, Chenchen Shen, Shujun Liu, Yuxuan Zhou, Yao Xiao, Song Yun, Wei Lin, Xuanjing Huang, Zhongyu Wei
我们提出DISC LawLLM，这是一个利用大语言模型LLM提供广泛法律服务的智能法律系统。我们采用法律三段论提示策略构建中国司法领域的有监督微调数据集，并微调具有法律推理能力的法学硕士。我们通过检索模块增强法学硕士，以增强模型访问和利用外部法律知识的能力。提出了综合法律基准DISC Law Eval，从客观和主观维度评估智能法律系统。 DISC 法律评估的定量和定性结果证明了我们的系统在为不同法律