【AI视野·今日NLP 自然语言处理论文速览第三十九期】Fri, 22 Sep 2023

hitrjj

已于 2023-09-23 18:24:21 修改

阅读量886

点赞数

分类专栏： NLP NLPer Papers 文章标签：自然语言处理 NLP NLPer 文本生成 LoRA

于 2023-09-23 18:18:19 首次发布

本文链接：https://blog.csdn.net/u014636245/article/details/133213223

版权

Papers 同时被 3 个专栏收录

457 篇文章 126 订阅

订阅专栏

NLP

79 篇文章 20 订阅

订阅专栏

NLPer

17 篇文章 2 订阅

订阅专栏

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 22 Sep 2023
Totally 59 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
Authors Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia
我们提出了 LongLoRA，这是一种有效的微调方法，可以扩展预训练的大型语言模型 LLM 的上下文大小，并且计算成本有限。通常，训练具有长上下文大小的法学硕士的计算成本很高，需要大量的训练时间和 GPU 资源。例如，在 8192 的上下文长度上进行训练，自注意力层的计算成本是 2048 的 16 倍。在本文中，我们从两个方面加速了 LLM 的上下文扩展。一方面，虽然推理过程中需要密集的全局注意力，但通过稀疏的局部注意力可以有效且高效地对模型进行微调。所提出的短转移注意力有效地实现了上下文扩展，从而节省了不平凡的计算量，并且具有与普通注意力微调相似的性能。特别是，它在训练中只需两行代码即可实现，而在推理中是可选的。另一方面，我们重新审视上下文扩展的参数有效微调机制。值得注意的是，我们发现用于上下文扩展的 LoRA 在可训练嵌入和标准化的前提下效果很好。 LongLoRA 在 LLaMA2 模型（7B、13B 到 70B）的各种任务上展示了强有力的实证结果。 LongLoRA 在单个 8x A100 机器上采用 LLaMA2 7B 从 4k 上下文到 100k，或 LLaMA2 70B 到 32k。 LongLoRA 扩展了模型上下文，同时保留了其原始架构，并且与大多数现有技术（例如 FlashAttention 2）兼容。此外，为了使 LongLoRA 实用，我们收集了一个数据集 LongQA，用于监督微调。

Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models
Authors Levon Haroutunian, Zhuang Li, Lucian Galescu, Philip Cohen, Raj Tumuluri, Gholamreza Haffari
大型语言模型法学硕士在自然语言生成方面展示了令人印象深刻的能力。然而，它们的输出质量可能不一致，这给从逻辑形式 LF 生成自然语言带来了挑战。此任务要求生成的输出能够体现 LF 的精确语义，而不会丢失任何 LF 语义或产生任何幻觉。在这项工作中，我们通过提出一种新颖的生成和重新排序方法来解决这个问题。我们的方法包括首先通过提示 LLM 生成一组候选输出，然后使用特定于任务的重新排序模型对它们进行重新排序。此外，我们还整理了一个手动收集的数据集，以评估不同排名指标和人类判断之间的一致性。所选的排名指标用于增强重新排名模型的训练和评估。通过对三个不同的数据集进行广泛的实验，我们证明，通过三个综合指标衡量，我们的重排序器选择的候选者在语义一致性和流畅性方面优于基线方法选择的候选者。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
Authors Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans
我们揭露了自回归大型语言模型法学硕士中令人惊讶的泛化失败。如果模型在 A is B 形式的句子上进行训练，它不会自动泛化到相反的方向 B is A 。这就是逆转咒。例如，如果一个模型以 Olaf Scholz was the ninth Chancellor of German 为对象进行训练，那么它不会自动回答“谁是德国第九任总理”这个问题。此外，Olaf Scholz 正确答案的可能性不会高于随机名称的可能性。因此，模型表现出逻辑演绎的基本失败，并且没有概括其训练集中的普遍模式，即如果 A 是 B 发生，则 B 是 A 更有可能发生。我们通过微调 GPT 3 和 Llama 1 的虚构陈述（例如 Uriah Hawthorne 是深渊旋律的作曲家）来提供逆转诅咒的证据，并表明它们无法正确回答谁创作了深渊旋律。逆转诅咒在模型大小和模型系列中都很稳健，并且不会通过数据增强得到缓解。我们还针对有关现实世界名人的问题评估 ChatGPT GPT 3.5 和 GPT 4，例如“谁是汤姆·克鲁斯的母亲 A Mary Lee Pfeiffer”以及相反的“谁是 Mary Lee Pfeiffer 的儿子”。 GPT 4 正确回答了前者的问题，当时为 79 个，而后者为 33 个。这表明逻辑演绎失败，我们假设是由逆转诅咒引起的。

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
Authors Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
大型语言模型法学硕士突破了自然语言理解的极限，并表现出了出色的问题解决能力。尽管取得了巨大的成功，但由于复杂的推理过程，大多数现有的开源LLM（例如LLaMA 2）在解决数学问题方面仍然远远不能令人满意。为了弥补这一差距，我们提出了 emph MetaMath，这是一种专门从事数学推理的微调语言模型。具体来说，我们首先通过从多个角度重写问题而无需额外知识来引导数学问题，从而产生一个名为 MetaMathQA 的新数据集。然后我们在 MetaMathQA 上微调 LLaMA 2 模型。两个流行基准（即用于数学推理的 GSM8K 和 MATH）的实验结果表明，MetaMath 的性能明显优于一套开源 LLM。我们的 MetaMath 7B 模型在 GSM8K 上达到 66.4，在 MATH 上达到 19.4，比相同尺寸的最先进模型高出 11.5 和 8.7。特别是，MetaMath 70B 在 GSM8K 上的准确率达到 82.3，略优于 GPT 3.5 Turbo。

Inspire the Large Language Model by External Knowledge on BioMedical Named Entity Recognition
Authors Junyi Bian, Jiaxuan Zheng, Yuyi Zhang, Shanfeng Zhu
大型语言模型法学硕士在许多 NLP 任务中表现出了主导性的性能，尤其是在生成任务中。然而，它们在某些信息提取任务中常常达不到要求，特别是那些需要特定领域知识的任务，例如生物医学命名实体识别 NER 。在本文中，受Chain of Thought的启发，我们利用LLM来解决生物医学NER，逐步将NER任务分解为实体跨度提取和实体类型确定。此外，对于实体类型确定，我们注入实体知识来解决LLM在预测实体类别时缺乏领域知识的问题。实验结果表明，与之前的几次 LLM 基线相比，我们的两步 BioNER 方法有了显着改进。

Improving VTE Identification through Adaptive NLP Model Selection and Clinical Expert Rule-based Classifier from Radiology Reports
Authors Jamie Deng, Yusen Wu, Hilary Hayssen, Brain Englum, Aman Kankaria, Minerva Mayorga Carlin, Shalini Sahoo, John Sorkin, Brajesh Lal, Yelena Yesha, Phuong Nguyen
快速、准确地识别静脉血栓栓塞症（VTE）是一种严重的心血管疾病，包括深静脉血栓形成 DVT 和肺栓塞 PE，对于有效治疗非常重要。在放射学报告中利用自然语言处理 NLP，自动化方法在从回顾性数据队列中识别 VTE 事件或帮助临床专家从放射学报告中识别 VTE 事件方面显示出有希望的进步。然而，由于标记的医学文本数据有限、放射学报告的复杂性和异质性以及数据不平衡，有效训练深度学习 DL 和 NLP 模型具有挑战性。本研究提出了深度学习方法的新方法组合，以及数据增强、自适应预训练 NLP 模型选择和基于临床专家 NLP 规则的分类器，以提高非结构化自由文本放射学报告中 VTE 识别的准确性。我们的实验结果证明了该模型的有效性，在预测 DVT 方面实现了令人印象深刻的 97 准确率和 97 F1 分数，在预测 PE 方面取得了出色的 98.3 准确率和 98.4 F1 分数。

The Cambridge Law Corpus: A Corpus for Legal AI Research
Authors Andreas stling, Holli Sargeant, Huiyuan Xie, Ludwig Bull, Alexander Terenin, Leif Jonsson, M ns Magnusson, Felix Steffek
我们介绍剑桥法律语料库 CLC，这是一个用于法律人工智能研究的语料库。它包含超过 250,000 个来自英国的法庭案件。大多数案例来自 21 世纪，但语料库中也包括 16 世纪的案例。本文介绍了该语料库的第一个版本，包含原始文本和元数据。与语料库一起，我们提供了由法律专家完成的 638 个案件的案件结果注释。使用带注释的数据，我们使用 GPT 3、GPT 4 和 RoBERTa 模型训练和评估案例结果提取，以提供基准。我们进行了广泛的法律和道德讨论，以解决该材料的潜在敏感性质。

On the Relationship between Skill Neurons and Robustness in Prompt Tuning
Authors Leon Ackermann, Xenia Ohmer
Prompt Tuning 是一种流行的参数高效微调方法，适用于预训练的大型语言模型 PLM。最近，基于 RoBERTa 的实验，有人建议提示调整会激活 Transformer 前馈网络中的特定神经元，这些神经元对于给定任务具有高度预测性和选择性。在本文中，我们使用 RoBERTa 和 T5 研究了与这些技能神经元相关的提示调整的稳健性。我们表明，针对特定任务调整的提示可以转移到相同类型的任务，但对于对抗性数据不是很稳健，T5 的稳健性比 RoBERTa 更高。同时，我们在 RoBERTa 中复制了技能神经元的存在，并进一步表明技能神经元似乎也存在于 T5 中。有趣的是，T5 在非对抗性数据上确定的技能神经元也是对抗性数据上最具预测性的神经元之一，而 RoBERTa 的情况并非如此。

SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References
Authors Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro Moschitti
QA 系统的评估非常具有挑战性且昂贵，最可靠的方法是对问题答案的正确性进行人工注释。最近的工作 AVA、BEM 表明，基于 Transformer LM 编码器的相似性度量可以很好地转移到 QA 评估，但它们受到单个正确参考答案的使用的限制。我们提出了一种新的评估指标 SQuArE Sentence level QUEstion AnsweRingvaluation，使用多个参考答案结合多个正确和不正确的参考来进行句子形式的 QA。

Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
Authors Beizhe Hu, Qiang Sheng, Juan Cao, Yuhui Shi, Yang Li, Danding Wang, Peng Qi
检测假新闻既需要对各种线索的敏锐感知，又需要对现实世界背景的深刻理解，由于知识和能力的限制，这对于基于小语言模型 SLM 的检测器来说仍然具有挑战性。大型语言模型的最新进展 LLM 在各种任务中表现出了卓越的性能，但 LLM 是否以及如何帮助假新闻检测仍有待探索。在本文中，我们研究了法学硕士在假新闻检测方面的潜力。首先，我们进行了实证研究，发现复杂的 LLM（例如 GPT 3.5）通常可以揭露假新闻并提供理想的多视角原理，但仍然不如基本的 SLM、微调的 BERT。我们随后的分析将这种差距归因于法学硕士无法正确选择和整合理由来得出结论。基于这些发现，我们建议当前的法学硕士可能不会在假新闻检测中替代经过微调的 SLM，但可以通过提供多视角的指导性原理来成为 SLM 的良好顾问。为了实例化该提案，我们设计了一个用于假新闻检测 ARG 的自适应基本原理指导网络，其中 SLM 有选择地从 LLM 基本原理中获取新闻分析的见解。我们通过蒸馏进一步推导出 ARG 的无理由版本，即 ARG D，它可以为成本敏感的场景提供服务，而无需询问法学硕士。

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition
Authors Chen Xu, Xiaoqian Liu, Erfeng He, Yuhao Zhang, Qianqian Dong, Tong Xiao, Jingbo Zhu, Dapeng Man, Wu Yang
在这项研究中，我们提出了同步双语联结时间分类 CTC，这是一种创新框架，利用双 CTC 来弥合语音翻译 ST 任务中模态和语言的差距。我们的模型利用转录和翻译作为 CTC 的并行目标，弥合了音频和文本之间以及源语言和目标语言之间的差距。基于 CTC 应用的最新进展，我们开发了一种增强型变体 BiL CTC，它在资源受限的情况下在 MuST C ST 基准上建立了新的最先进的性能。有趣的是，我们的方法还显着提高了语音识别性能，揭示了跨语言学习对转录的影响并证明了其广泛的适用性。

Towards Answering Health-related Questions from Medical Videos: Datasets and Approaches
Authors Deepak Gupta, Kush Attal, Dina Demner Fushman
在线视频的可用性的增加改变了我们获取信息和知识的方式。现在越来越多的人更喜欢教学视频，因为它们提供了一系列逐步的程序来完成特定的任务。来自医学领域的教学视频可以为急救、医疗急救和医学教育问题提供最佳的视觉答案。为此，本文的重点是通过提供医疗视频的视觉答案来回答公众提出的与健康相关的问题。医疗领域大规模数据集的稀缺是阻碍开发可以帮助公众解决健康相关问题的应用程序的一个关键挑战。为了解决这个问题，我们首先提出了一种流水线方法来创建两个大型数据集 HealthVidQA CRF 和 HealthVidQA Prompt。后来，我们提出了单模态和多模态方法，可以有效地提供从医学视频到自然语言问题的视觉答案。我们对结果进行了全面分析，重点关注创建的数据集对模型训练的影响以及视觉特征在提高单模态和多模态方法性能方面的重要性。

Code Soliloquies for Accurate Calculations in Large Language Models
Authors Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu Mallick, Richard G. Baraniuk
高质量的对话数据集是成功开发采用大型语言模型 LLM 后端的智能辅导系统 ITS 的组成部分。这些数据集在用于微调 LLM 后端时，可显着提高学生与 ITS 之间的互动质量。开发这些数据集的常见策略包括使用高级 GPT 4 模型生成合成的师生对话。然而，当这些对话需要复杂的计算时，挑战就会出现，这在物理学等学科中很常见。尽管具有先进的功能，GPT 4 的性能在可靠地处理简单的乘法任务方面仍存在不足，这标志着它在这些科目中的实用性受到了重大限制。为了应对这些挑战，本文引入了一种创新的有状态提示设计。我们的方法在学生和导师机器人之间生成模拟对话，这两个角色都是由 GPT 4 模拟的。每个学生的反应都会触发 GPT 导师机器人的内心独白，评估其反应是否需要计算。如果是这样，它会继续用 Python 编写所需的代码，然后使用生成的输出来构建对学生的响应。我们的方法显着提高了合成对话数据集的质量，特别是对于计算密集型的主题。我们的研究结果表明，我们的 Higgs 模型是一个 LLaMA，并通过我们新颖的状态提示设计生成的数据集进行了微调，熟练地利用 Python 进行计算。

OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media
Authors Fatimah Alzamzami, Abdulmotaleb El Saddik
虽然英语资源足以理解社交媒体上的内容，但阿拉伯语的类似资源仍然不成熟。阿拉伯语资源不足的主要原因是阿拉伯语除了标准版MSA之外还有很多方言。阿拉伯人在日常交流中不使用 MSA，而是使用方言版本。不幸的是，社交用户将这种现象转移到他们对社交媒体平台的使用中，这反过来又迫切需要为语言依赖应用程序构建合适的人工智能模型。现有的为 MSA 设计的机器翻译 MT 系统无法很好地处理阿拉伯语方言。有鉴于此，有必要通过开发能够有效处理阿拉伯语各种方言的机器翻译系统来适应社交网络上交流的非正式性质。与在 MT 系统中显示出先进进展的 MSA 不同，MT 系统在利用阿拉伯方言方面几乎没有做出任何努力。虽然很少有人尝试构建阿拉伯语方言翻译数据集，但它们是领域相关的，并且对 OSN 文化语言不友好。在这项工作中，我们试图通过提出一个基于在线社交网络的多方言阿拉伯语数据集来减轻这些限制，该数据集是通过根据上下文将英语推文翻译成海湾、也门、伊拉克和黎凡特四种阿拉伯方言而制作的。为了进行翻译，我们遵循了我们提出的内容翻译指南框架，该框架普遍适用于外语和当地方言之间的翻译。我们通过开发四种阿拉伯方言的神经机器翻译模型来验证我们提出的数据集的真实性。我们的结果表明，使用我们的数据集训练的 NMT 模型具有卓越的性能。

How-to Guides for Specific Audiences: A Corpus and Initial Findings
Authors Nicola Fanton, Agnieszka Falenska, Michael Roth
针对特定目标群体的教学文本最好考虑读者的先验知识和需求，以有效地引导他们实现预期目标。然而，针对特定群体也存在反映不同社会规范和微妙刻板印象的风险。在本文中，我们调查了来自某一特定平台 wikiHow 的指南在实践中根据目标受众的不同程度而有所不同。我们进行了两个案例研究，检查为特定受众编写的文本的定性特征。在泛化研究中，我们研究哪些差异也可以使用计算方法系统地证明。我们的研究结果表明，wikiHow 的指南与其他文本类型一样，都存在微妙的偏差。

PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan pre-trained language models
Authors Zhou Mingjun, Daiqing Zhuoma, Qun Nuo, Nyima Tashi
在这个大语言模型LLM的时代，传统的模型训练对于普通用户和机构来说已经变得越来越难以想象。在这些模型上探索高资源语言的高效微调是不可否认的趋势，并且正在逐渐流行。然而，对于藏语等各种低资源语言的探索却很少。藏语 NLP 的研究本质上是稀缺和有限的。虽然由于藏语资源匮乏，目前还没有大型语言模型，但这一天无疑会到来。因此，针对藏语等低资源语言模型的高效微调研究非常有必要。我们的研究可以作为填补这一关键空白的参考。针对藏语预训练语言模型 PLM 的高效微调策略的探索很少。我们对公开的TNCC标题数据集提示调优、Adapter轻量级微调和提示调优Adapter微调进行了三种类型的高效微调实验。

A Computational Analysis of Vagueness in Revisions of Instructional Texts
Authors Alok Debnath, Michael Roth
WikiHow 是一个开放域存储库，包含用于各种任务的指导文章，用户可以对其进行修改。在本文中，我们提取了修订前后指令的成对版本。从修订历史的嘈杂数据集开始，我们专门提取和分析涉及指令模糊情况的编辑。

SemEval-2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts
Authors Michael Roth, Talita Anthonio, Anna Sauer
我们描述了 SemEval 2022 任务 7，这是一项对教学文本中澄清的合理性进行评级的共享任务。此任务的数据集包括手动澄清的指南，我们为此生成了替代说明并收集了人类的合理性判断。参与系统的任务是自动确定澄清在各自上下文中的合理性。共有 21 名参与者参与了这项任务，最好的系统达到了 68.9 的准确率。本报告总结了 8 个团队的结果和发现及其系统描述。

Accelerating Thematic Investment with Prompt Tuned Pretrained Language Models
Authors Valentin Leonhard Buchner, Lele Cao, Jan Christoph Kalo
提示调优正在成为一种可扩展且经济有效的方法，用于微调预训练语言模型 PLM。本研究对多标签文本分类任务上的提示调整和基线方法的性能和计算效率进行了基准测试。这适用于将公司分类为投资公司专有行业分类的用例，支持其主题投资策略。据报道，使用 PLM 进行文本到文本分类的性能经常优于使用分类头进行的分类，但在应用于多标签分类问题（其中每个标签由多个标记组成）时存在一些限制 a 生成的标签可能与行业分类中的任何标签不匹配 b 在微调，必须以任意顺序提供多个标签 c 该模型为每个标签提供二元决策，而不是适当的置信度得分。通过使用 Trie 搜索应用约束解码解决了限制 a，这稍微提高了分类性能。所有限制 a 、 b 和 c 均通过用分类头替换 PLM 的语言头来解决。这显着提高了性能，同时还降低了推理过程中的计算成本。

AceGPT, Localizing Large Language Models in Arabic
Authors Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu
本文探讨了开发针对阿拉伯语的本地化大语言模型 LLM 的迫切需求和方法，阿拉伯语是一种具有独特文化特征的语言，目前的主流模型（如 ChatGPT）无法充分解决这一问题。在考虑文化敏感性和当地价值观时，还会出现一些关键问题。为此，论文概述了一个打包的解决方案，包括使用阿拉伯语文本进行进一步的预训练、使用本地阿拉伯语指令和阿拉伯语 GPT 4 响应进行监督微调 SFT，以及使用对本地敏感的奖励模型通过 AI 反馈 RLAIF 进行强化学习。文化和价值观。

CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation
Authors Masato Mita, Soichiro Murakami, Akihiko Kato, Peinan Zhang
针对手动在线广告制作的局限性，自动广告文本生成ATG领域进行了大量研究。然而，比较不同的方法一直具有挑战性，因为缺乏涵盖整个领域的基准，并且缺乏具有明确模型输入和输出的明确定义的问题集。为了应对这些挑战，本文旨在通过引入重新设计的任务并构建基准来推进 ATG 领域的发展。具体来说，我们将 ATG 定义为涵盖互联网广告各个方面的跨应用程序任务。作为我们贡献的一部分，我们提出了第一个基准数据集，即 CA Multimodal Improvement for Ad Text GenRAtion CAMERA ，它是为 ATG 精心设计的，能够利用多模态信息并进行行业明智的评估。此外，我们通过使用多个基线模型的评估实验证明了我们提出的基准的有用性，这些模型在使用的预训练语言模型的类型和多模态信息的合并方面有所不同。

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset
Authors Lianmin Zheng, Wei Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang
由于大型语言模型法学硕士在各种应用中的广泛使用，研究人们如何在现实世界中与大型语言模型法学硕士进行交互变得越来越重要。在本文中，我们介绍了 LMSYS Chat 1M，这是一个大型数据集，包含与 25 个最先进的法学硕士进行的 100 万次现实世界对话。该数据集是从我们的 Vicuna 演示和 Chatbot Arena 网站上的 210K 个唯一 IP 地址收集的。我们概述了数据集的内容，包括其管理过程、基本统计数据和主题分布，强调其多样性、原创性和规模。我们通过四个用例展示了其多功能性，开发了与 GPT 4 类似的内容审核模型，构建了安全基准，按照与 Vicuna 类似的模型进行训练指令，并创建了具有挑战性的基准问题。我们相信该数据集将成为理解和推进 LLM 能力的宝贵资源。

Rethinking the Evaluating Framework for Natural Language Understanding in AI Systems: Language Acquisition as a Core for Future Metrics
Authors Patricio Vera, Pedro Moya, Lisa Barraza
在新兴的人工智能领域，自然语言处理 NLP 领域的大型语言模型法学硕士取得了前所未有的进步，为重新审视机器智能传统指标的整个方法（形式和内容）提供了机会。由于机器认知评估的境界已经达到了模仿，下一步就是高效的语言习得和理解。我们的论文提出了一种范式转变，从既定的图灵测试转向依赖于语言习得的包罗万象的框架，并从法学硕士的最新进展中汲取灵感。

Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task
Authors Ricardo Rei, Nuno M. Guerreiro, Jos Pombal, Daan van Stigt, Marcos Treviso, Luisa Coheur, Jos G.C. de Souza, Andr F.T. Martins
我们展示了 Unbabel 和 Instituto Superior T cnico 对 WMT 2023 质量估计 QE 共享任务的联合贡献。我们的团队参与了句子和词级质量预测任务 1 和细粒度错误跨度检测任务 2 的所有任务。对于所有任务，我们都以 COMETKIWI 22 模型为基础，Rei 等人，2022b。我们的多语言方法在所有任务中均排名第一，在单词、跨度和句子级别粒度的质量估计方面达到了最先进的性能。与之前最先进的 COMETKIWI 22 相比，我们在与人类判断的相关性方面显示出巨大的改进，高达 10 Spearman 点。

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework
Authors Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang
对话 ERC 中情感识别的发展一直受到管道设计复杂性的阻碍，导致 ERC 模型经常过度适应特定的数据集和对话模式。

Focal Inferential Infusion Coupled with Tractable Density Discrimination for Implicit Hate Speech Detection
Authors Sarah Masud, Ashutosh Bajpai, Tanmoy Chakraborty
尽管经过预训练的大型语言模型 PLM 在许多 NLP 任务上已经达到了最先进的水平，但它们缺乏对隐含仇恨言论的微妙表达的理解。这种微妙而含蓄的仇恨常常被错误地归类为非仇恨。人们已经做出了各种尝试，通过增强外部上下文或通过基于距离的指标强制标签分离来增强隐式仇恨内容的检测。我们结合这两种方法并引入 FiADD，一种新颖的聚焦推理自适应密度判别框架。 FiADD 通过使隐含仇恨言论的表面形式更接近其隐含形式，同时增加各种类别标签之间的簇间距离，增强了 PLM 微调管道。我们在三个隐式仇恨数据集上测试 FiADD，并观察到双向和三向仇恨分类任务的显着改进。我们进一步实验了 FiADD 在其他三个任务上的普遍性，即检测讽刺、反讽和立场，其中表面形式和隐含形式不同，并观察到类似的性能改进。

Is It Really Useful to Jointly Parse Constituency and Dependency Trees? A Revisit
Authors Yanggang Gu, Yang Hou, Zhefeng Wang, Xinyu Duan, Zhenghua Li
这项工作探讨了联合解析选区树和依存树的主题，即为输入句子同时生成兼容的选区树和依存树，考虑到两种类型的树在表示语法方面是互补的，这是很有吸引力的。与之前的工作相比，我们在四个方面取得了进展：1采用更高效的解码算法，2探索训练阶段的联合建模，而不是仅在推理阶段，3提出用于成分依赖交互的高阶评分组件，4获得

Syntactic Variation Across the Grammar: Modelling a Complex Adaptive System
Authors Jonathan Dunn
虽然语言是一个复杂的自适应系统，但大多数关于句法变异的研究都观察到与语法其余部分隔离的一些单独的结构。这意味着语法，一个连接数千个不同抽象级别的结构的网络，被简化为几个互不相连的变量。本文通过对 16 个国家 49 个当地英语人口的方言变化进行系统建模，量化了这种减少的影响。我们对整个语法以及语法中的孤立节点进行方言分类，以表征这些方言之间的句法差异。结果表明，首先，语法中的许多单独节点都会发生变化，但孤立地看，没有一个节点的表现与语法整体一样好。这表明句法变异的一个重要部分包括语法不同部分之间的相互作用。其次，结果表明，方言之间的相似性在很大程度上取决于所观察到的语法子集，例如，新西兰英语在短语动词方面可能与澳大利亚英语更相似，但同时在与格短语方面与英国英语更相似

BitCoin: Bidirectional Tagging and Supervised Contrastive Learning based Joint Relational Triple Extraction Framework
Authors Luyao He, Zhongbao Zhang, Sen Su, Yuxin Chen
关系三元组提取RTE是信息提取和知识图谱构建中的一项重要任务。尽管最近取得了进展，现有方法仍然表现出一定的局限性。他们只是采用通用的预训练模型，没有考虑 RTE 任务的特殊性。此外，现有的基于标记的方法通常将 RTE 任务分解为两个子任务，首先识别主题，然后识别对象和关系。他们只专注于提取从主语到客体的关系三元组，而忽略了一旦主语提取失败，就无法提取与该主语相关的所有三元组。为了解决这些问题，我们提出了比特币，这是一种创新的双向标记和基于监督对比学习的联合关系三元组提取框架。具体来说，我们设计了一种监督对比学习方法，该方法考虑每个锚点的多个正值，而不是将其限制为仅一个正值。此外，引入惩罚项以防止主体和客体之间过度相似。我们的框架在两个方向上实现标记器，从而实现从主题到对象以及从对象到主题的三元组提取。

Knowledge Sanitization of Large Language Models
Authors Yoichi Ishibashi, Hidetoshi Shimodaira
我们探索一种知识清理方法来减轻与大型语言模型法学硕士相关的隐私问题。经过大量网络数据训练的法学硕士可以记住并可能泄露敏感或机密信息，从而引发严重的安全问题。我们的技术对这些模型进行微调，促使它们在询问特定信息时生成无害的响应，例如“我不知道”。闭卷问答任务的实验结果表明，我们的简单方法不仅最大限度地减少了特定的知识泄漏，而且还保留了 LLM 的整体性能。

Evaluating Large Language Models for Document-grounded Response Generation in Information-Seeking Dialogues
Authors Norbert Braunschweiler, Rama Doddipatla, Simon Keizer, Svetlana Stoyanchev
在本文中，我们研究了使用 ChatGPT 等大型语言模型 LLM 在信息寻求对话的背景下生成基于文档的响应。为了进行评估，我们使用了之前在 DialDoc 2022 共享任务中使用的四个社会服务领域中面向任务的对话的 MultiDoc2Dial 语料库。寻求信息的对话回合以提供相关信息的多个文档为基础。我们通过使用 Chat Completion 和 LlamaIndex 两种方法提示 ChatGPT 模型来生成对话完成响应。 ChatCompletion 使用来自 ChatGPT 模型预训练的知识，而 LlamaIndex 还从文档中提取相关信息。观察到通过 LLM 生成的文档接地响应无法通过自动评估指标进行充分评估，因为它们明显更加冗长，因此我们执行人工评估，其中注释者对共享任务获胜系统的输出、两个 Chat GPT 变体输出和人工响应进行评分。

A Chinese Prompt Attack Dataset for LLMs with Evil Content
Authors Chengyuan Liu, Fubang Zhao, Lizhi Qing, Yangyang Kang, Changlong Sun, Kun Kuang, Fei Wu
大型语言模型法学硕士在文本理解和生成方面具有重要的优先地位。然而，法学硕士面临着产生有害内容的风险，尤其是在受雇于应用程序时。有多种黑盒攻击方法，例如 Prompt Attack，它可以改变 LLM 的行为并诱导 LLM 生成含有有害内容的意外答案。研究人员对法学硕士的即时攻击和防御很感兴趣，但没有公开的数据集来评估防御即时攻击的能力。在本文中，我们介绍了一个针对法学硕士的中文即时攻击数据集，称为 CPAD。我们的提示旨在通过多种精心设计的提示攻击方法和广泛关注的攻击内容来诱导LLM产生意想不到的输出。与以往涉及安全性评估的数据集不同，我们考虑了三个维度的内容、攻击方法和目标来构建提示，因此可以轻松评估和分析响应。我们在我们的数据集上运行了几个著名的中国 LLM，结果表明我们的提示对 LLM 具有显着的危害，攻击成功率约为 70。

Word Embedding with Neural Probabilistic Prior
Authors Shaogang Ren, Dingcheng Li, Ping Li
为了改进单词表示学习，我们提出了一种可以与单词嵌入模型无缝集成的概率先验。与以前的方法不同，词嵌入被视为概率生成模型，它使我们能够强加先验的正则化词表示学习。所提出的先验不仅增强了嵌入向量的表示，而且提高了模型的鲁棒性和稳定性。所提出的先验结构简单有效，并且可以轻松实现并灵活地插入大多数现有的词嵌入模型中。

ContextRef: Evaluating Referenceless Metrics For Image Description Generation
Authors Elisa Kreiss, Eric Zelikman, Christopher Potts, Nick Haber
无参考指标，例如 CLIPScore 使用预训练的视觉语言模型来直接评估图像描述，而无需昂贵的真实参考文本。这些方法可以促进快速进展，但前提是它们真正符合人类的偏好判断。在本文中，我们介绍了 ContextRef，这是用于评估此类对齐的无参考指标的基准。 ContextRef 有两个组成部分，即沿着各种已建立的质量维度进行的人工评级，以及旨在发现根本弱点的十种不同的稳健性检查。 ContextRef 的一个重要方面是图像和描述是在上下文中呈现的，这反映了先前的工作表明上下文对于描述质量很重要。使用 ContextRef，我们评估各种预训练模型、评分函数和合并上下文的技术。这些方法对于 ContextRef 都没有成功，但我们表明，仔细的微调可以带来实质性的改进。

Memory-Augmented LLM Personalization with Short- and Long-Term Memory Coordination
Authors Kai Zhang, Fubang Zhao, Yangyang Kang, Xiaozhong Liu
大型语言模型法学硕士（例如 GPT3.5）在理解和生成自然语言方面表现出了卓越的熟练程度。然而，他们的非个性化生成范式可能会导致用户特定的结果不理想。通常，用户根据他们的知识和偏好进行不同的交谈。这就需要加强面向用户的法学硕士，而这一任务尚未得到探索。虽然人们可以为这一目标充分培训法学硕士，但资源消耗是无法承受的。先前的研究已经探索了基于内存的方法来存储和检索知识，以增强生成而无需重新训练新查询。然而，我们认为仅仅一个记忆模块不足以理解用户的偏好，并且全面培训法学硕士可能成本过高。在这项研究中，我们提出了一种新颖的计算仿生记忆机制，配备参数有效的微调模式，以个性化法学硕士。我们广泛的实验结果证明了所提出方法的有效性和优越性。

Semi-supervised News Discourse Profiling with Contrastive Learning
Authors Ming Li, Ruihong Huang
新闻话语分析旨在仔细审查新闻文章中每个句子与事件相关的角色，并且已被证明在各种下游应用程序中很有用。具体来说，在给定新闻话语的上下文中，每个句子都根据其对新闻事件结构的描述被分配到预定义的类别。然而，由于生成话语级别注释的费力和时间密集性，现有方法缺乏可用的人工注释数据。在本文中，我们提出了一种新颖的方法，称为文档内对比学习与蒸馏 ICLD，利用其独特的结构特征来解决新闻话语分析任务。

LLM Guided Inductive Inference for Solving Compositional Problems
Authors Abhigya Sodani, Lauren Moos, Matthew Mirman
虽然大型语言模型法学硕士在问答任务中表现出了令人印象深刻的性能，但当问题需要模型训练数据中未包含的知识并且只能通过直接观察或与现实世界交互来获取时，它们的性能就会受到限制。现有方法通过使用顺序调用的模块来分解推理任务，限制了它们回答深度推理任务的能力。我们引入了一种基于递归的可扩展 LLM REBEL 方法，该方法通过采用动态规划和前向链接策略等自动推理技术来处理开放世界的深度推理任务。 REBEL 允许法学硕士通过递归问题分解和利用外部工具进行推理。 REBEL 使用的工具仅通过自然语言描述来指定。

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
Authors Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
生成式大语言模型法学硕士在各种 NLP 任务中取得了显着的进步。然而，这些进步并没有体现在翻译任务中，特别是那些模型大小适中的模型，即 7B 或 13B 参数，它们仍然落后于传统的监督编码器解码器翻译模型。此前的研究曾试图提高这些中等程度的法学硕士的翻译能力，但其收获有限。在这项研究中，我们提出了一种专为翻译任务设计的新型法学硕士微调方法，消除了传统翻译模型通常依赖的大量并行数据的需要。我们的方法包括两个微调阶段，首先对单语言数据进行微调，然后对一小组高质量并行数据进行后续微调。我们将通过这种策略开发的法学硕士称为基于高级语言模型的翻译器ALMA。基于 LLaMA 2 作为我们的基础模型，我们的结果表明，该模型在 WMT 21 2 方向和 WMT 22 8 方向测试数据集的 10 个平移方向上，其零射击性能平均提高了 12 BLEU 和 12 COMET 以上。性能明显优于所有先前的工作，甚至优于 NLLB 54B 模型和 GPT 3.5 文本 davinci 003，仅使用 7B 或 13B 参数。

Construction of Paired Knowledge Graph-Text Datasets Informed by Cyclic Evaluation
Authors Ali Mousavi, Xin Zhan, He Bai, Peng Shi, Theo Rekatsinas, Benjamin Han, Yunyao Li, Jeff Pound, Josh Susskind, Natalie Schluter, Ihab Ilyas, Navdeep Jaitly
将知识图谱 KG 和文本 KG T 配对的数据集可用于训练从 KG 生成文本的正向和反向神经模型，反之亦然。然而，在 KG 和文本对不等价的数据集上训练的模型可能会出现更多的幻觉和较差的回忆。在本文中，我们通过生成具有不同噪声水平的数据集来验证这一点，并发现噪声较大的数据集确实会导致更多的幻觉。我们认为，在数据集上训练的正向和反向模型循环重新生成源 KG 或文本的能力是 KG 与数据集中文本之间等价性的代理。使用循环评估，我们发现手动创建的 WebNLG 比自动创建的 TeKGen 和 T REx 好得多。在这些观察的指导下，我们使用启发式方法构建了一个新的、改进的数据集 LAGRANGE，旨在提高知识图谱和文本之间的等价性，并显示每种启发式方法对循环评估的影响。

Towards Effective Disambiguation for Machine Translation with Large Language Models
Authors Vivek Iyer, Pinzhen Chen, Alexandra Birch
解决语义歧义长期以来被认为是机器翻译领域的核心挑战。最近对歧义句子的翻译性能进行基准测试的工作暴露了传统神经机器翻译 NMT 系统的局限性，该系统无法捕获许多此类情况。大型语言模型 LLM 已成为一种有前景的替代方案，展示了与传统 NMT 模型相当的性能，同时引入了控制目标输出的新范式。在本文中，我们研究了法学硕士翻译包含多义词和罕见词义的歧义句子的能力。我们还提出了两种方法来通过上下文学习和对精心策划的模糊数据集进行微调来改进对此类模糊性的处理。实验表明，我们的方法在五种语言方向中的四种可以匹配或超越 DeepL 和 NLLB 等最先进的系统。

Hate speech detection in algerian dialect using deep learning
Authors Dihia Lanasri, Juan Olano, Sifal Klioui, Sin Liang Lee, Lamia Sekkai
随着社交网络上不同形式的仇恨言论激增，例如辱骂性语言、网络欺凌和暴力等，人们经历的暴力显着增加，使他们处于不舒服的境地和威胁之中。在过去的几年里，人们付出了大量的努力来克服这种现象，以检测英语、法语、阿拉伯语等不同结构语言中的仇恨言论。然而，涉及突尼斯语、埃及语和海湾语等阿拉伯方言（主要是阿尔及利亚方言）的作品数量有所减少。为了填补这一空白，我们在这项工作中提出了一种完整的方法来检测阿尔及利亚在线消息中的仇恨言论。许多深度学习架构已经在我们从一些阿尔及利亚社交网络 Facebook、YouTube 和 Twitter 创建的语料库上进行了评估。该语料库包含超过 13,500 个用阿拉伯语编写的阿尔及利亚方言文档，标记为可恨或非可恨。

SpeechAlign: a Framework for Speech Translation Alignment Evaluation
Authors Belen Alastruey, Aleix Sant, Gerard I. G llego, David Dale, Marta R. Costa juss
语音到语音和语音到文本翻译是当前动态的研究领域。为了对这些领域做出贡献，我们提出了 SpeechAlign，一个用于评估语音模型中源目标对齐领域尚未开发的框架。我们的框架有两个核心组件。首先，为了解决缺乏合适的评估数据集的问题，我们引入了语音黄金对齐数据集，该数据集建立在英语德语文本翻译黄金对齐数据集的基础上。其次，我们引入了两个新颖的指标：语音对齐错误率 SAER 和时间加权语音对齐错误率 TW SAER ，以评估语音模型中的对齐质量。

Incorporating Singletons and Mention-based Features in Coreference Resolution via Multi-task Learning for Better Generalization
Authors Yilun Zhu, Siyao Peng, Sameer Pradhan, Amir Zeldes
之前将提及检测步骤纳入英语端到端神经共指解析的尝试因缺乏单例提及跨度数据以及其他实体信息而受到阻碍。本文提出了一种共指模型，该模型通过基于多任务学习的方法来学习单例以及实体类型和信息状态等特征。这种方法在 OntoGUM 基准测试中获得了新的最先进分数 2.7 分，并且在多个域外数据集上的鲁棒性平均提高了 2.3 分，这可能是由于与仅共指提及相比，提及检测和利用来自单例的更多数据具有更大的通用性。

Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets
Authors Yida Mu, Xingyi Song, Kalina Bontcheva, Nikolaos Aletras
谣言检测模型的一个重要方面是其泛化能力，特别是检测新出现的、以前未知的谣言的能力。过去的研究表明，基于内容（即仅使用源帖子作为输入）的谣言检测模型往往对未见过的谣言表现不佳。与此同时，基于上下文的模型的潜力在很大程度上尚未开发。本文的主要贡献在于深入评估内容和基于上下文的模型之间的性能差距，特别是在检测新的、未见过的谣言方面。我们的实证研究结果表明，基于上下文的模型仍然过度依赖从谣言来源帖子中获得的信息，并且往往忽视上下文信息可以发挥的重要作用。我们还研究了数据分割策略对分类器性能的影响。

SignBank+: Multilingual Sign Language Translation Dataset
Authors Amit Moryossef, Zifan Jiang
这项工作通过关注数据集质量和翻译系统的简化，推动了手语机器翻译领域的发展。我们推出 SignBank，这是 SignBank 数据集的干净版本，针对机器翻译进行了优化。与之前采用复杂因式分解技术进行翻译的作品相反，我们提倡采用简化的文本到文本翻译方法。

Towards LLM-based Autograding for Short Textual Answers
Authors Johannes Schneider, Bernd Schenk, Christina Niklaus, Michaelis Vlachos
考试评分是一项重要的、劳动密集型的、主观的、重复性的、经常具有挑战性的任务。由于 ChatGPT 等大型语言模型 LLM 的可用性以及数字化带来的大量数据涌入，自动评分文本响应的可行性大大增加。然而，将决策角色委托给人工智能模型会引起道德考虑，这主要源于潜在的偏见和与生成虚假信息相关的问题。因此，在这份手稿中，我们出于自动评分的目的对大型语言模型进行了评估，同时还强调了法学硕士如何支持教育工作者验证其评分程序。我们的评估针对自动简短文本答案评分 ASAG，涵盖两门不同课程的各种语言和考试。

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
Authors Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
3D 视觉基础是家用机器人的一项关键技能，使它们能够根据环境进行导航、操纵物体并回答问题。虽然现有方法通常依赖于大量标记数据或在处理复杂语言查询时表现出局限性，但我们提出了 LLM Grounder，这是一种新颖的零样本、开放词汇、基于大型语言模型 LLM 的 3D 视觉基础管道。 LLM Grounder 利用 LLM 将复杂的自然语言查询分解为语义成分，并采用 OpenScene 或 LERF 等视觉基础工具来识别 3D 场景中的对象。然后，法学硕士评估所提出的对象之间的空间和常识关系，以做出最终的基础决定。我们的方法不需要任何标记的训练数据，并且可以推广到新颖的 3D 场景和任意文本查询。我们根据 ScanRefer 基准评估 LLM Grounder，并展示最先进的零射击接地精度。我们的研究结果表明，LLM 显着提高了基础能力，尤其是对于复杂的语言查询，使 LLM Grounder 成为机器人领域 3D 视觉语言任务的有效方法。

Rehearsal: Simulating Conflict to Teach Conflict Resolution
Authors Omar Shaikh, Valentino Chai, Michele J. Gelfand, Diyi Yang, Michael S. Bernstein
人际冲突是生活中令人不安但不可避免的事实。成功应对冲突是一项可以通过刻意练习来学习的技能，但很少有人能够获得有效的培训或反馈。为了扩大这种访问范围，我们引入了排练系统，该系统允许用户与可信的模拟对话者排练冲突，探索反事实的假设场景以识别替代对话路径，并通过反馈学习如何以及何时应用特定的冲突策略。用户可以利用排练来练习处理各种预定义的冲突场景，从办公室纠纷到人际关系问题，或者他们也可以选择创建自己的冲突场景。为了实现排演，我们开发了 IRP 提示，这是一种根据冲突解决的有影响力的利益权利权力 IRP 理论调节大型语言模型输出的方法。 Rehearsal 使用 IRP 生成基于冲突解决理论的话语，引导用户采取反事实的冲突解决策略，帮助缓和困难的对话。在受试者间评估中，40 名参与者在训练后与一名同伙发生了实际冲突。与使用涵盖相同 IRP 理论的讲座材料的对照组相比，通过排练进行模拟训练的参与者显着提高了他们在无辅助冲突中的表现，他们将升级竞争策略的使用平均减少了 67 ，同时将合作策略的使用增加了一倍。

LLMR: Real-time Prompting of Interactive Worlds using Large Language Models
Authors Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej Banburski Fahey, Judith Amores Fernandez, Jaron Lanier
我们提出了混合现实大型语言模型 LLMR，这是一个使用 LLM 实时创建和修改交互式混合现实体验的框架。 LLMR 利用新颖的策略来解决理想训练数据稀缺或设计目标需要综合内部动态、直观分析或高级交互性的困难情况。我们的框架依赖于文本交互和 Unity 游戏引擎。通过结合场景理解、任务规划、自调试和内存管理技术，LLMR 的平均错误率比标准 GPT 4 高出 4 倍。我们通过几个示例世界演示了 LLMR 的跨平台互操作性，并在各种创建和修改任务上对其进行了评估，以表明它可以生成和编辑不同的对象、工具和场景。

ChaCha: Leveraging Large Language Models to Prompt Children to Share Their Emotions about Personal Events
Authors Woosuk Seo, Chanmo Yang, Young Ho Kim
孩子们通常通过与他人（尤其是家人）分享他们的故事和感受来学习识别和表达情感。然而，由于孩子的沟通能力仍在发展中，父母或兄弟姐妹与孩子进行情感沟通具有挑战性。我们推出了 ChaCha，一个聊天机器人，它鼓励和引导孩子们分享个人事件和相关情感。 ChaCha 结合了状态机和大型语言模型 LLM，以在进行自由形式对话的同时保持对话正常进行。通过对 20 名 8 至 12 岁儿童的探索性研究，我们研究了 ChaCha 如何提示孩子们分享个人事件并引导他们描述相关情绪。参与者将 ChaCha 视为亲密的朋友，并分享了他们关于各种主题的故事，例如家庭旅行和个人成就。

Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam
Authors Matheus L. O. Santos, Cl udio E. C. Campelo
尽管大型语言模型法学硕士代表了我们与计算机交互方式的一场革命，允许构建复杂的问题并能够对一系列语句进行推理，但由于需要专用的执行硬件，它们的使用受到限制。在这项研究中，我们基于 7 和 130 亿个 LLaMA 模型评估了 LLM 的性能，这些模型经过量化处理并在家用硬件上运行。考虑的模型是羊驼毛、考拉和骆马毛。为了评估这些模型的有效性，我们开发了一个数据库，其中包含 ENEM 巴西国家中学考试的 1,006 个问题。我们的分析显示，表现最好的模型在葡萄牙语问题的原始文本上达到了大约 46 的准确度，在其英语翻译上达到了 49 的准确度。此外，我们通过测量执行所需的时间来评估模型的计算效率。

BELT:Bootstrapping Electroencephalography-to-Language Decoding and Zero-Shot Sentiment Classification by Natural Language Supervision
Authors Jinzhao Zhou, Yiqun Duan, Yu Cheng Chang, Yu Kai Wang, Chin Teng Lin
本文提出了 BELT，这是一种针对大脑到语言翻译研究这一关键主题的新颖模型和学习框架。将非侵入性脑信号翻译成可读的自然语言有可能促进应用场景以及脑机接口BCI的整体发展。大脑信号解码或大脑到语言翻译的关键问题是从有限规模和质量的数据集中获取语义上适当且具有辨别力的脑电图表示。所提出的 BELT 方法是一个通用且高效的框架，它使用现成的大规模预训练语言模型 LM 来引导 EEG 表示学习。

Stock Market Sentiment Classification and Backtesting via Fine-tuned BERT
Authors Jiashu Lou
随着大数据和计算设备的快速发展，基于实时信息获取的低延迟自动交易平台已成为股票交易市场的主要组成部分，因此量化交易的话题受到了广泛的关注。而对于非强效率的交易市场来说，人类的情绪和预期总是主导市场趋势和交易决策。因此，本文从情感理论出发，以东方财富为例，从其对应的股票条中爬取用户评论标题数据并进行数据清洗。随后，构建了自然语言处理模型BERT，并利用现有的标注数据集对BERT模型进行了微调。实验结果表明，微调后的模型相比原始模型和基线模型都有不同程度的性能提升。随后，基于上述模型，对爬取的用户评论数据进行情感极性标签，将获得的标签信息与Alpha191模型结合参与回归，得到显着的回归结果。随后，利用回归模型预测未来五天的平均价格变化，并将其作为指导自动交易的信号。实验结果表明，情感因素的加入使交易期间的收益率较基线提高了73.8，较原始alpha191模型提高了32.41。

Audio Contrastive based Fine-tuning
Authors Yang Wang, Qibin Liang, Chenghao Xiao, Yizhi Li, Noura Al Moubayed, Chenghua Lin
音频分类在具有广泛应用的语音和声音处理任务中发挥着至关重要的作用。在将模型拟合到训练数据（避免过度拟合）和使其能够很好地推广到新领域之间取得适当的平衡仍然是一个挑战。利用对比学习的可迁移性，我们引入了基于音频对比的微调 AudioConFit ，这是一种具有强大通用性的有效方法。

A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion Analysis
Authors Xianhao Wei, Jia Jia, Xiang Li, Zhiyong Wu, Ziyi Wang
本文探索从话语层面的文本中预测适合细粒度情感分析的韵律特征。为了获得细粒度的情感韵律特征作为我们模型的预测值，我们借助风格迁移模型从语音中提取音素级本地韵律嵌入序列 LPE 和全局风格嵌入作为韵律语音特征。我们提出了一种话语级多尺度文本韵律模型 D MPM，它利用多尺度文本来预测这两个韵律特征。该模型可用于分析更好的情感韵律特征，从而指导语音合成模型合成更具表现力的语音。为了定量评估所提出的模型，我们贡献了一个新的大规模话语级中文有声读物 DCA 数据集，其中包含超过 13,000 个话语注释序列来评估所提出的模型。 DCA数据集上的实验结果表明，多尺度文本信息有效地有助于预测韵律特征，并且话语级文本提高了整体连贯性和用户体验。

SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features
Authors Zhaoyi Wang, Zhenyang Zhang, Jiaxin Qin, Mizuho Iwaihara
维基百科的文章通过类别和列表进行分层组织，提供了最全面和通用的分类法之一，但其开放式创建导致了冗余和不一致。将 DBPedia 类分配给 Wikipedia 类别和列表可以缓解该问题，实现大型知识图谱，这对于通过实体链接和类型对数字内容进行分类至关重要。然而，CaLiGraph 的现有方法正在生成不完整且非细粒度的映射。在本文中，我们解决了本体对齐问题，其中知识图的结构信息以及本体类名称的词汇和语义特征被用来发现置信映射，而这些映射又被用于以远程监督方式细化预训练的语言模型。我们的方法 SLHCat 由两个主要部分组成： 1 通过利用知识图结构、语义相似性和命名实体类型自动生成训练数据。 2 对训练数据进行预训练语言模型 BERT 的微调和即时调整，以捕获类名的语义和句法属性。我们的模型 SLHCat 在通过注释 3000 个细粒度 CaLiGraph DBpedia 映射对构建的基准数据集上进行评估。

BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
Authors Nolan Dey, Daria Soboleva, Faisal Al Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming Charles Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness
我们引入了 Bittensor 语言模型，称为 BTLM 3B 8K，这是一种最先进的 30 亿参数开源语言模型。 BTLM 3B 8K 使用 SlimPajama 数据集中的 627B 个令牌进行训练，混合了 2,048 和 8,192 上下文长度。 BTLM 3B 8K 在下游任务中的性能比所有现有 3B 参数模型高 2 5.5。 BTLM 3B 8K甚至可以与一些7B参数型号竞争。此外，BTLM 3B 8K 还提供出色的长上下文性能，在上下文长度高达 8,192 的任务上优于 MPT 7B 8K 和 XGen 7B 8K。

Hierarchical reinforcement learning with natural language subgoals
Authors Arun Ahuja, Kavya Kopparapu, Rob Fergus, Ishita Dasgupta
分层强化学习一直是在长序列行动中实现目标导向行为的一种引人注目的方法。然而，在现实或开放环境中实施一直具有挑战性。主要挑战是找到正确的子目标空间来实例化层次结构。我们提出了一种新颖的方法，使用人类解决这些任务的数据来软监督 3D 体现环境中一组远程任务的目标空间。特别是，我们使用无约束的自然语言来参数化这个空间。这有两个优点，首先，很容易从天真的人类参与者生成这些数据，其次，它足够灵活，可以代表人类相关任务中的大量子目标。我们的方法优于在这些任务上克隆专家行为的代理，以及在没有监督子目标空间的情况下从头开始的 HRL。

Matching Table Metadata with Business Glossaries Using Large Language Models
Authors Elita Lobo, Oktie Hassanzadeh, Nhan Pham, Nandana Mihindukulasooriya, Dharmashankar Subramanian, Horst Samulowitz
企业通常拥有大型数据库或企业数据湖形式的大量结构化数据。此类数据集合具有有限的元数据和严格的访问策略，可能会限制对数据内容的访问，从而限制经典检索和分析解决方案的应用。因此，需要能够有效利用可用元数据的解决方案。在本文中，我们研究将表元数据与包含数据标签和描述的业务术语表相匹配的问题。由此产生的匹配允许使用可用的或策划的业务术语表进行检索和分析，而无需请求访问数据内容或在请求访问数据内容之前。此问题的一种解决方案是对列名称和词汇表描述或其向量嵌入使用手动定义的规则或相似性度量来查找最接近的匹配。然而，此类方法需要通过手动标记进行调整，并且无法处理许多包含简单以及复杂和长描述组合的业务词汇表。在这项工作中，我们利用大型语言模型 LLM 的强大功能来设计通用匹配方法，该方法不需要手动调整，并且可以识别列名称和术语表之间的复杂关系。我们提出了以两种方式利用 LLM 的方法：a 通过为列名称生成额外的上下文，可以帮助匹配 b 通过使用 LLM 直接推断列名称和术语表描述之间是否存在关系。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com