【AI视野·今日NLP 自然语言处理论文速览第五十四期】Fri, 13 Oct 2023_d2 pruning: message passing for balancing diversit-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133822562

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 13 Oct 2023
Totally 75 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models
Authors Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo
本文研究闭环任务规划，它是指生成一系列技能和计划以完成特定目标，同时根据实时观察调整计划的过程。最近，由于其卓越的性能和用户友好性，促使大型语言模型法学硕士迭代生成动作已成为一种流行的范例。然而，这种范式受到两个低效率的困扰：高令牌消耗和冗余纠错，这两者都阻碍了其大规模测试和应用程序的可扩展性。为了解决这些问题，我们提出了 Tree Planner，它将法学硕士的任务规划重新构建为三个不同的阶段：计划抽样、行动树构建和扎根决策。 Tree Planner 首先使用 LLM 在执行前对一组潜在计划进行采样，然后将它们聚合以形成操作树。最后，法学硕士在树上执行自上而下的决策过程，同时考虑实时环境信息。实验表明，Tree Planner 在保持高效率的同时实现了最先进的性能。通过将 LLM 查询分解为单个计划采样调用和多个接地决策调用，提示的相当一部分不太可能被重复使用。结果，与之前表现最佳的模型相比，代币消耗减少了 92.2。此外，通过根据需要在操作树上启用回溯，纠正过程变得更加灵活，导致错误纠正减少 40.5。

Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement
Authors Linlu Qiu, Liwei Jiang, Ximing Lu, Melanie Sclar, Valentina Pyatkin, Chandra Bhagavatula, Bailin Wang, Yoon Kim, Yejin Choi, Nouha Dziri, Xiang Ren
从少量观察中得出基本原理，然后推广到新情况（称为归纳推理）的能力是人类智能的核心。先前的研究表明，尽管在研究基准上取得了令人印象深刻的成功，但语言模型 LM 在归纳推理方面常常存在缺陷。在这项工作中，我们通过迭代假设细化对 LM 的归纳推理能力进行了系统研究，这种技术比标准输入输出提示更能反映人类归纳过程。迭代假设细化采用三步过程，以文本规则的形式提出、选择和细化假设。通过检查中间规则，我们观察到 LM 是现象级的假设提出者，即生成候选规则，并且当与能够系统地过滤所提议的规则集的特定于任务的符号解释器相结合时，这种混合方法在归纳推理中取得了很好的结果需要归纳因果关系、指令等语言和符号概念的基准。然而，它们也表现为令人费解的归纳推理机，在规则归纳（即识别合理的规则）和规则应用（即将建议的规则应用于实例）方面表现出显着的性能差距，这表明 LM 提出假设而无法实际应用规则。

Do pretrained Transformers Really Learn In-context by Gradient Descent?
Authors Lingfeng Shen, Aayush Mishra, Daniel Khashabi
上下文学习 ICL 隐式等价于梯度下降 GD 最近的几项工作对大型语言模型中 GD 的动态和 ICL 的涌现行为进行了类比。然而，这些工作的假设与训练语言模型的现实自然语言环境相去甚远。

LLM-augmented Preference Learning from Natural Language
Authors Inwon Kang, Sikai Ruan, Tyler Ho, Jui Chien Lin, Farhad Mohsin, Oshani Seneviratne, Lirong Xia
寻找以自然语言表达的偏好是一项重要但具有挑战性的任务。最先进的 SotA 方法利用基于 Transformer 的模型（例如 BERT、RoBERTa 等）和图神经架构（例如图注意网络）。由于大型语言模型法学硕士能够处理更大的上下文长度，并且比基于转换器的模型具有更大的模型大小，因此我们研究了它们直接对比较文本进行分类的能力。这项工作旨在作为使用法学硕士完成 CPC 任务的第一步。我们设计并进行了一组实验，将分类任务格式化为法学硕士的输入提示，以及一种获得可自动评估的固定格式响应的方法。将性能与现有方法进行比较，我们发现预先训练的 LLM 能够超越之前的 SotA 模型，并且无需进行微调。我们的结果表明，当目标文本很大（即由多个句子组成）时，LLM 可以始终优于 SotA，并且在较短的文本中仍然可以与 SotA 性能相媲美。

HoneyBee: Progressive Instruction Finetuning of Large Language Models for Materials Science
Authors Yu Song, Santiago Miret, Huan Zhang, Bang Liu
我们提出了一种基于指令的材料科学 MatSci Instruct 中值得信赖的数据管理流程，然后我们将其应用于微调针对材料科学 HoneyBee 的基于 LLaMa 的语言模型。 MatSci Instruct 有助于缓解开放文献中相关的高质量材料科学文本数据的稀缺性，而 HoneyBee 是第一个专门用于材料科学的十亿参数语言模型。在 MatSci Instruct 中，我们通过使用 Instructor 模块提示生成多个商用大型语言模型来提高生成数据的可信度。聊天 GPT 和来自独立验证器模块的验证，例如克劳德.使用 MatSci Instruct，我们构建了多个任务的数据集，并从多个维度衡量数据集的质量，包括已知事实的准确性、与材料科学的相关性以及数据的完整性和合理性。此外，我们在微调评估反馈循环中迭代地生成更有针对性的指令和指令数据，从而使我们微调的 HoneyBee 模型的性能逐渐提高。我们对 MatSci NLP 基准的评估表明，HoneyBee 在材料科学任务上优于现有语言模型，并且在指令数据细化的连续阶段中进行了迭代改进。我们通过自动评估和分析案例研究来研究 HoneyBee 语言模型的质量，以进一步了解模型的功能和局限性。

The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS
Authors Pengyu Wang, Zhichen Ren
对现代汉语的自动分析极大地提高了相关领域文本挖掘的准确性，但对古汉语的研究还比较少。古文划分和词汇注释是古典文献理解的重要组成部分，以往的研究尝试构建辅助词典和其他融合知识来提高性能。在本文中，我们提出了一个古汉语分词和词性标注的框架，一方面做出了双重努力，另一方面我们尝试捕获词性语义，我们通过以下方式重新预测基线模型的不确定样本：引入外部知识。

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
Authors Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
最近，使用强大的专有大型语言模型 LLM（例如 GPT 4）作为长格式响应的评估器已成为事实上的标准。然而，对于具有大规模评估任务和考虑到儿童可读性等自定义标准的从业者来说，由于闭源性质、不受控制的版本控制和高昂的成本，使用专有的法学硕士作为评估者是不可靠的。在这项工作中，我们提出了 Prometheus，这是一个完全开源的 LLM，当附有适当的参考材料参考答案、评分标准时，其评估能力与 GPT 4 的评估能力相当。我们首先构建反馈集合，这是一个新的数据集，其中包含 1K 细粒度评分标准、20K 指令以及 GPT 4 生成的 100K 响应和语言反馈。使用反馈集合，我们训练 Prometheus，这是一个 13B 评估器 LLM，可以评估任何根据用户提供的自定义评分标准给出长格式文本。实验结果表明，Prometheus 在使用 45 个定制评分标准进行评估时，与人类评估者的皮尔逊相关性为 0.897，与 GPT 4 0.882 相当，并且大大优于 ChatGPT 0.392。此外，通过四个基准 MT Bench、Vicuna Bench、Feedback Bench、Flask Eval 的 1222 个定制评分标准来测量与 GPT 4 的相关性，显示了类似的趋势，增强了 Prometheus 作为评估器 LLM 的能力。最后，与在人类偏好数据集上明确训练的开源奖励模型相比，Prometheus 在两个人类偏好基准 HHH Alignment MT Bench Human Judgment 上实现了最高准确度，凸显了其作为通用奖励模型的潜力。

GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models
Authors Yuanchun Shen, Ruotong Liao, Zhen Han, Yunpu Ma, Volker Tresp
虽然多模态模型已成功集成来自图像、视频和音频模态的信息，但将图模态集成到大型语言模型 LLM 中仍有待探索。这种差异很大程度上源于结构化图形数据和非结构化文本数据之间的固有差异。结合图形知识提供了可靠的信息源，使潜在的解决方案能够解决文本生成中的问题，例如幻觉和缺乏领域知识。为了评估图知识与语言模型的集成，需要一个专用的数据集。然而，目前还没有专门为多模态图语言模型设计的基准数据集。为了解决这一差距，我们提出了 GraphextQA，这是一个从维基数据检索的具有配对子图的问答数据集，以促进图语言模型的评估和未来开发。此外，我们引入了一个名为 CrossGNN 的基线模型，它通过在解码时交叉参与问题感知图特征来在配对图上生成答案。所提出的数据集旨在评估图语言模型理解图并利用其生成答案的能力。

Understanding the Humans Behind Online Misinformation: An Observational Study Through the Lens of the COVID-19 Pandemic
Authors Mohit Chandra, Anush Mattapalli, Munmun De Choudhury
网上错误信息的泛滥已成为社会面临的最大威胁之一。人们付出了大量努力来构建错误信息检测模型，但错误信息的危险仍然存在。减少在线错误信息及其后果需要采取整体方法，不仅要理解其与复杂问题和主题丰富的在线信息生态系统相关的复杂景观，还要理解背后个人的心理驱动因素。我们采用时间序列分析技术和基于稳健因果推理的设计，进行了大规模观察研究，分析了超过 3200 万条 COVID 19 推文和 1600 万条历史时间线推文。我们专注于了解在新冠肺炎 (COVID-19) 期间传播错误信息的用户的行为和心理，及其与大流行之前分享非新冠主题错误信息的历史倾向的关系。我们的分析强调了跨主题错误信息固有的复杂性，并强调用户分享错误信息的历史倾向与他们目前在新兴主题及其他主题上分享错误信息的行为呈正相关。

Can We Edit Multimodal Large Language Models?
Authors Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang
在本文中，我们重点关注编辑多模态大型语言模型 MLLM。与编辑单模态法学硕士相比，多模态模型编辑更具挑战性，需要在编辑过程中进行更高水平的审查和仔细考虑。为了促进这一领域的研究，我们构建了一个名为 MMEdit 的新基准，用于编辑多模式法学硕士并建立一套创新的评估指标。我们进行了涉及各种模型编辑基线的综合实验，并分析了编辑不同组件对多模式法学硕士的影响。根据经验，我们注意到以前的基线可以在一定程度上实现多模态 LLM 的编辑，但效果仍然差强人意，这表明这项任务的潜在难度。

DistillSpec: Improving Speculative Decoding via Knowledge Distillation
Authors Yongchao Zhou, Kaifeng Lyu, Ankit Singh Rawat, Aditya Krishna Menon, Afshin Rostamizadeh, Sanjiv Kumar, Jean Fran ois Kagy, Rishabh Agarwal
推测性解码 SD 通过采用更快的草稿模型生成多个标记来加速大型语言模型推理，然后由更大的目标模型并行验证这些标记，从而根据目标模型分布生成文本。然而，确定与目标模型高度一致的紧凑草图模型具有挑战性。为了解决这个问题，我们提出了 DistillSpec，它在应用 SD 之前使用知识蒸馏来更好地将草稿模型与目标模型对齐。 DistillSpec 做出了两个关键的设计选择，我们通过系统研究证明，这对于利用草案模型生成政策数据来改进草案和目标对齐以及根据任务和解码策略定制分歧函数至关重要。值得注意的是，在一系列标准基准测试中，使用贪婪和非贪婪采样，DistillSpec 比标准 SD 获得了令人印象深刻的 10 45 加速。此外，我们将 DistillSpec 与有损 SD 相结合，以实现对延迟与任务性能权衡的细粒度控制。最后，在模型大小不同的实际场景中，首先使用蒸馏来提高目标模型的性能，然后应用 DistillSpec 训练对齐良好的草稿模型，与没有使用蒸馏的标准解码相比，可以将解码延迟减少 6 10 倍，同时性能下降最小。

A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing
Authors Carlos G mez Rodr guez, Paul Williams
我们评估了一系列最近的英语创意写作法学硕士，这是一项具有挑战性和复杂的任务，需要想象力、连贯性和风格。我们选择了一个困难的、开放式的场景，以避免训练数据重复使用，讲述了普利策奖获奖小说《笨蛋联盟》（1980）的主角伊格内修斯·J·赖利（Ignatius J. Reilly）和翼手龙（一种史前飞行爬行动物）之间的一场史诗般的战斗。我们要求几位法学硕士和人类写这样一个故事，并进行涉及各种标准（例如流畅性、连贯性、原创性、幽默和风格）的人类评估。我们的结果表明，一些最先进的商业法学硕士在大多数方面都与我们的作者相匹配或略胜一筹，而开源法学硕士则落后。人类在创造力方面保持着优势，而幽默则显示出能够与人类媲美的法学硕士和那些失败的法学硕士之间的二元鸿沟。

Prompting Large Language Models with Chain-of-Thought for Few-Shot Knowledge Base Question Generation
Authors Yuanyuan Liang, Jianing Wang, Hanlun Zhu, Lei Wang, Weining Qian, Yunshi Lan
KBQG 知识库问题生成任务旨在将逻辑形式转换为自然语言问题。由于大规模问题标注的成本高昂，迫切需要开发低资源场景下的KBQG方法。然而，当前的方法严重依赖注释数据进行微调，这不太适合少量问题的生成。大型语言模型法学硕士的出现在少数任务中展示了其令人印象深刻的泛化能力。受到思想链 CoT 提示（一种上下文学习推理策略）的启发，我们将 KBQG 任务制定为推理问题，其中完整问题的生成被分成一系列子问题生成。我们提出的提示方法 KQG CoT 首先考虑逻辑形式的特征，从未标记的数据池中检索支持逻辑形式。然后，我们编写一个提示来明确根据所选演示生成复杂问题的推理链。为了进一步确保及时质量，我们通过按复杂性对逻辑形式进行排序，将 KQG CoT 扩展为 KQG CoT。我们对三个公共 KBQG 数据集进行了广泛的实验。结果表明，我们的提示方法在评估数据集上始终优于其他提示基线。

Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization
Authors Ondrej Skopek, Rahul Aralikatte, Sian Gooding, Victor Carbune
尽管最近取得了进展，但评估大型语言模型法学硕士遵循用户指令的情况仍然是一个悬而未决的问题。虽然语言模型的评估方法基于提示的方法有所增加，但对这些方法的正确性进行的工作有限。在这项工作中，我们对各种指标进行元评估，以量化它们衡量法学硕士的指令跟随能力的准确程度。我们的调查是通过收集新的简短形式的真实世界数据集 riSum 来进行基于接地查询的摘要，其中包含 300 个文档指令对，每个指令对有 3 个答案。所有 900 个答案均由 3 名人工注释者评分。使用 riSum，我们分析评估方法与人类判断之间的一致性。

Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction
Authors Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan
几个世纪以来，新材料的发现一直推动着人类进步。材料的行为是其成分、结构和性能的函数，这进一步取决于其加工和测试条件。深度学习和自然语言处理的最新发展使得从同行评审出版物、书籍和专利等已发表文献中大规模提取信息成为可能。然而，这些信息以多种格式传播，例如表格、文本和图像，并且报告风格很少或没有统一，从而带来了一些机器学习挑战。在这里，我们讨论、量化和记录从材料科学文献中自动信息提取 IE 到创建大型材料科学知识库的这些突出挑战。具体来说，我们从文本和表格中关注 IE，并通过示例概述了一些挑战。

Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment
Authors Boyang Xue, Weichao Wang, Hongru Wang, Fei Mi, Rui Wang, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu, Kam Fai Wong
基于 PLM 的基于知识的对话系统的预训练语言模型很容易生成与所提供的知识源实际上不一致的响应。在这种不一致的响应中，对话模型无法准确表达它们所依赖的外部知识。受之前工作的启发，我们发现 Transformer 中的前馈网络 FFN 负责事实知识表达，我们研究了两种方法，分别通过知识增强和对齐来有效提高 FFN 的事实表达能力。我们首先提出了 textsc K Dial ，它在 Transformers 中明确引入了扩展的 FFN，以增强基于知识的对话输入的特定模式的事实知识表达。此外，我们应用事实一致性强化学习 RLFC 方法，通过与事实一致性偏好的黄金知识相一致，隐式调整响应中的 FFN 表达式。为了全面评估回复的事实一致性和对话质量，我们采用了广泛的自动测量和人工评估，包括基于复杂细粒度 NLI 的指标。

From Large Language Models to Knowledge Graphs for Biomarker Discovery in Cancer
Authors Md. Rezaul Karim, Lina Molinas Comet, Md Shajalal, Oya Beyan, Dietrich Rebholz Schuhmann, Stefan Decker
领域专家通常依靠最新知识来理解和传播特定的生物过程，帮助他们设计制定预防和治疗决策的策略。人工智能面临的一个具有挑战性的场景是使用生物医学数据（例如文本、成像、组学和临床）来提供癌症疾病的诊断和治疗建议。有关癌症、药物、基因、蛋白质及其机制的数据和知识分布在结构化知识库 KB 和非结构化知识库（例如科学文章来源）中。通过整合这些数据，可以构建大规模的知识图谱 KG，然后提取有关语义上相互关联的实体和关系的事实。这样的知识图谱不仅允许探索和问答 QA，还允许领域专家推导出新知识。然而，由于缺乏对底层数据资产和语义技术的理解，探索和查询大规模知识图谱对于非领域用户来说是乏味的。在本文中，我们开发了一个域 KG 来利用癌症特异性生物标志物发现和交互式 QA。为此，开发了一种名为 OncoNet Ontology ONO 的领域本体，以实现验证基因疾病关系的语义推理。然后，通过采用基于 BioBERT 和 SciBERT 的信息提取 IE 方法，协调 ONO、受控词汇和科学文章中的其他生物医学概念，从而丰富知识图谱。此外，由于生物医学领域正在不断发展，新的发现经常会取代旧的发现，而不采用最新的发现，因此人工智能系统在提供诊断和治疗时很有可能出现概念漂移。

Not All Demonstration Examples are Equally Beneficial: Reweighting Demonstration Examples for In-Context Learning
Authors Zhe Yang, Damai Dai, Peiyi Wang, Zhifang Sui
大型语言模型法学硕士最近通过模型扩展获得了上下文学习 ICL 能力，使他们能够快速适应下游任务，只需在输入序列中预先添加一些演示示例。尽管如此，ICL 目前的做法对所有演示示例都一视同仁，这仍然需要改进，因为示例的质量通常参差不齐。在本文中，我们研究了如何确定演示示例的近似最佳权重以及如何在 ICL 期间应用它们。为了在没有额外验证数据的情况下评估权重的质量，我们设计了一个掩码自我预测 MSP 分数，该分数与最终 ICL 性能表现出很强的相关性。为了加快权重搜索过程，我们离散化连续权重空间并采用波束搜索。获得近似最佳权重后，我们进一步提出两种策略将其应用于不同模型位置的演示。 8 个文本分类任务的实验结果表明，我们的方法大大优于传统的 ICL。

MProto: Multi-Prototype Network with Denoised Optimal Transport for Distantly Supervised Named Entity Recognition
Authors Shuhui Wu, Yongliang Shen, Zeqi Tan, Wenqi Ren, Jietian Guo, Shiliang Pu, Weiming Lu
远程监督命名实体识别 DS NER 旨在仅使用知识库或地名词典和未标记语料库来定位实体提及并对其类型进行分类。然而，远程注释存在噪音，会降低 NER 模型的性能。在本文中，我们为 DS NER 任务提出了一个名为 MProto 的噪声鲁棒原型网络。与之前基于原型的 NER 方法不同，MProto 用多个原型来表示每个实体类型，以表征实体表示之间的类内方差。为了优化分类器，应该为每个令牌分配一个适当的真实原型，我们将这种令牌原型分配视为最佳传输 OT 问题。此外，为了减轻不完整标记带来的噪声，我们提出了一种新颖的去噪最优传输 DOT 算法。具体来说，我们利用其他类标记和所有原型之间的分配结果来区分未标记的实体标记和真实的否定。对多个 DS NER 基准测试的实验表明，我们的 MProto 实现了最先进的性能。

Expanding the Vocabulary of BERT for Knowledge Base Construction
Authors Dong Yang, Xu Wang, Remzi Celebi
知识库建设需要获取结构化信息以创建事实和关系数据的知识库，促进问答、信息检索和语义理解。 2023 年国际语义网会议上名为“根据预训练语言模型构建知识库”的挑战定义了专注于使用语言模型构建知识库的任务。

Optimizing Odia Braille Literacy: The Influence of Speed on Error Reduction and Enhanced Comprehension
Authors Monnie Parida, Manjira Sinha, Anupam Basu, Pabitra Mitra
本研究旨在对视力障碍学生的 Odia 盲文阅读理解进行广泛而详细的分析。具体来说，该研究探讨了他们的阅读速度和手或手指的运动。该研究还旨在调查他们可能遇到的任何理解困难和阅读错误。六名来自九年级和十年级、年龄在 14 岁到 16 岁之间的学生参加了这项研究。我们观察参与者的手部动作，以了解阅读错误与手部动作之间的关系，并确定学生的阅读困难。我们还评估了参与者 Odia 盲文阅读技能，包括他们的每分钟字数、错误和理解的阅读速度。 Odia 盲文阅读器的平均速度为 17.64wpm。根据这项研究，阅读速度和阅读错误之间存在明显的相关性。随着阅读速度的降低，阅读错误的数量趋于增加。此外，该研究还建立了减少盲文阅读错误和提高阅读理解能力之间的联系。相比之下，研究发现更好的理解力与阅读速度的提高有关。研究人员得出了一些关于首选盲文阅读模式的有趣发现。

CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models
Authors Rui Yang, Li Fang, Yi Zhou
知识图补全KGC旨在利用现有知识来推导和推断知识图中缺失的连接。基于文本的方法（例如 SimKGC）的性能优于图形嵌入方法，展示了归纳 KGC 的前景。然而，基于文本的方法的有效性取决于实体文本描述的质量。在本文中，我们确定了大型语言模型法学硕士能否生成有效文本的关键问题。为了减轻本文中法学硕士生成的文本中的幻觉，我们引入了一种基于约束的提示，该提示利用实体及其文本描述作为上下文约束来提高数据质量。我们的约束提示知识图完成 CP KGC 方法展示了低资源计算条件下的有效推理，并超越了 WN18RR 和 FB15K237 数据集上的先前结果。

Impact of Co-occurrence on Factual Knowledge of Large Language Models
Authors Cheongwoong Kang, Jaesik Choi
尽管大型语言模型法学硕士在各种应用中取得了成功，但他们经常做出事实上不正确的回答。在本文中，我们假设严重依赖预训练语料库的简单共现统计是导致事实错误的主要因素之一。我们的结果表明，法学硕士很容易受到共现偏差的影响，共现偏差的定义是更喜欢频繁共现的单词而不是正确的答案。因此，法学硕士很难回忆起那些主语和客体很少同时出现在预训练数据集中的事实，尽管它们在微调过程中会出现。我们表明，尽管扩大了模型大小或进行了微调，但共现偏差仍然存在。因此，我们建议对有偏差的数据集进行微调，通过过滤掉主对象共现计数较高的有偏差样本来减轻偏差。尽管去偏微调允许法学硕士记住训练集中的罕见事实，但它不能有效地回忆微调期间未见过的罕见事实。缓解方面的进一步研究将有助于通过防止潜在错误来构建可靠的语言模型。

Who Said That? Benchmarking Social Media AI Detection
Authors Wanyun Cui, Linqiu Zhang, Qianle Wang, Shuyang Cai
人工智能生成的文本已在各种在线平台上激增，提供了变革性的前景，但也带来了与错误信息和操纵相关的重大风险。为了解决这些挑战，本文介绍了 SAID 社交媒体 AI 检测，这是一种新颖的基准，旨在评估真实社交媒体平台中的 AI 文本检测模型的能力。它结合了真正的人工智能，从知乎和 Quora 等流行社交媒体平台生成文本。与现有基准不同，SAID 处理的内容反映了互联网上真实 AI 用户所采用的复杂策略，这些策略可能会逃避检测或获得可见性，从而提供更现实和更具挑战性的评估环境。我们基于知乎数据集的研究的一个显着发现表明，注释者可以区分人工智能生成的文本和人类生成的文本，平均准确率为 96.5。这一发现需要重新评估人类在当今广泛受人工智能影响的环境中识别人工智能生成的文本的能力。此外，我们提出了一种新的面向用户的人工智能文本检测挑战，重点关注基于用户信息和多重响应识别人工智能生成文本的实用性和有效性。实验结果表明，与传统的模拟人工智能文本检测相比，在实际社交媒体平台上执行检测任务更具挑战性，导致准确性下降。

Language Models are Universal Embedders
Authors Xin Zhang, Zehan Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Min Zhang
在大型语言模型LLM革命中，嵌入是各种系统的关键组成部分。例如，它用于为法学硕士检索知识或记忆，构建内容审核过滤器等。由于这种情况涵盖从英语到其他自然或编程语言，从检索到分类等，因此需要构建一个统一的嵌入模型而不是针对每个场景的专用模型。在这项工作中，我们朝着这一目标迈出了第一步，证明了多种语言（包括自然语言和编程预训练的转换器解码器）在对有限的英语数据进行微调时可以普遍嵌入。我们提供全面的实践和彻底的评估。在英语 MTEB 上，我们的模型通过最少的训练数据在不同的嵌入任务上取得了有竞争力的性能。在其他基准测试中，例如多语言分类和代码搜索，我们在没有任何监督的情况下的模型的表现可与甚至超过严格监督的基线和/或 API。

SimCKP: Simple Contrastive Learning of Keyphrase Representations
Authors Minseok Choi, Chaeheon Gwak, Seho Kim, Si Hyeong Kim, Jaegul Choo
关键短语生成 KG 旨在生成给定源文档的一组总结性单词或短语，而关键短语提取 KE 旨在从文本中识别它们。由于KE中的搜索空间要小得多，因此它经常与KG结合起来来预测相应文档中可能存在或不存在的关键短语。然而，当前的统一方法采用序列标记和基于最大化的生成，主要在标记级别上运行，在整体观察和评分关键短语方面存在不足。在这项工作中，我们提出了 SimCKP，一个简单的对比学习框架，由两个阶段组成： 1 提取器生成器，通过以对比方式学习上下文感知短语级别表示来提取关键短语，同时生成文档中未出现的关键短语 2 重新排序器它通过同样将其表示与相应的文档对齐来调整每个生成的短语的分数。

Visual Question Generation in Bengali
Authors Mahmud Hasan, Labiba Islam, Jannatul Ferdous Ruma, Tasmiah Tahsin Mayeesha, Rashedur M. Rahman
视觉问题生成 VQG 的任务是生成与给定图像相关的类似人类的问题。由于 VQG 是一个新兴的研究领域，由于数据集的可用性，现有的工作往往只关注资源丰富的语言，例如英语。在本文中，我们提出了第一个孟加拉语视觉问题生成任务，并开发了一种基于变压器的新型编码器解码器架构，该架构在给定图像时生成孟加拉语问题。我们提出了模型的多种变体：i 仅图像基线模型，从图像生成问题而无需附加信息；ii 图像类别和图像答案类别引导的 VQG，其中我们条件模型根据答案和预期问题的类别生成问题。这些模型在翻译后的 VQAv2.0 数据集上进行训练和评估。我们的定量和定性结果为孟加拉语 VQG 任务建立了第一个最先进的模型，并证明我们的模型能够生成语法正确且相关的问题。我们的定量结果表明，我们的图像猫模型获得了 33.12 的 BLUE 1 分数和 7.56 的 BLEU 3 分数，这是其他两个变体中最高的。我们还进行人工评估来评估生成任务的质量。

EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation
Authors Wang You, Wenshan Wu, Yaobo Liang, Shaoguang Mao, Chenfei Wu, Maosong Cao, Yuzhe Cai, Yiduo Guo, Yan Xia, Furu Wei, Nan Duan
计划和写作是长篇叙事文本生成中常见的分层方法，它首先创建一个计划来指导叙事写作。采用这种方法，一些研究仅仅依靠提示大型语言模型进行规划，这通常会产生次优的结果。在本文中，我们提出了一种用于长篇叙事文本生成 EIPE 文本的评估引导迭代计划提取的新框架，该框架从叙事语料库中提取计划，并利用提取的计划构建更好的计划器。 EIPE文本有计划提取、学习和推理三个阶段。在计划提取阶段，它迭代地从叙述语料库中提取和改进计划，并构建计划语料库。我们提出了一种基于问答 QA 的评估机制来自动评估计划并生成详细的计划细化指令以指导迭代改进。在学习阶段，我们通过对计划语料库进行微调或通过计划语料库中的示例进行上下文学习来构建更好的计划器。最后，我们利用分层方法来生成长篇叙述。我们评估 EIPE 文本在小说和讲故事领域的有效性。基于 GPT 4 的评估和人工评估都表明，我们的方法可以生成更加连贯和相关的长篇叙述。

Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach
Authors Zheyuan Zhang, Jifan Yu, Juanzi Li, Lei Hou
大型语言模型法学硕士不仅在各种任务中表现出了卓越的表现，而且还展现出了智慧的火花。最近的研究重点是评估他们在人类考试中的能力，并揭示了他们在不同领域的令人印象深刻的能力。然而，对于法学硕士整体知识结构的认知研究仍然缺乏。在本文中，基于教育诊断评估方法，我们使用MoocRadar（一个基于布卢姆分类法的精心注释的人体测试数据集）进行评估。我们的目标是揭示法学硕士的知识结构并深入了解他们的认知能力。这项研究强调了调查法学硕士知识和理解法学硕士不同认知模式的重要性。

Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for Sentence Simplification
Authors Liam Cripwell, Jo l Legrand, Claire Gardent
句子简化的自动评估仍然是一个具有挑战性的问题。大多数流行的评估指标都需要多个高质量的参考，而这些参考不容易进行简化，这使得在看不见的领域测试性能变得困难。此外，大多数现有指标将简单性与相关属性（例如流畅性或意义保留）混为一谈。

Multiclass Classification of Policy Documents with Large Language Models
Authors Erkan Gunes, Christoffer Koch Florczak
将政策文件分类为政策问题主题是政治学和传播学科长期以来的努力。迄今为止，用于社会科学研究目的的自动化文本分类过程的努力已经取得了显着的成果，但仍有很大的进步空间。在这项工作中，我们测试了替代策略的预测性能，该策略需要的人工参与比完全手动编码要少得多。我们使用 OpenAI 的 GPT 3.5 和 GPT 4 模型（经过预先训练的指令调整大型语言模型 LLM），将国会法案和国会听证会分类为比较议程项目的 21 个主要政策问题主题。我们提出了三个用例场景，并根据所使用的场景和 GPT 模型估计了 58 到 83 之间的总体准确度。这三种场景分别针对最小、中等和严重的人为干扰。总体而言，我们的结果表明，在最少的人为干预下完全依赖 GPT 是不够的，随着人类的努力，准确性不断提高，并且在对人类要求最高的用例中实现了令人惊讶的高准确性。然而，优秀的用例在两个模型一致的 65 个数据上达到了 83 的准确率，这表明与我们的方法类似的方法可以相对容易地实现，并且允许对给定数据集的大部分进行自动编码。

Ziya-VL: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning
Authors Junyu Lu, Dixiang Zhang, Xiaojun Wu, Xinyu Gao, Ruyi Gan, Jiaxing Zhang, Yan Song, Pingjian Zhang
最近的进展通过集成多模态输入，扩大了大型语言模型法学硕士在零样本图像到文本生成和理解方面的能力。然而，由于缺乏大规模、高质量的非英语多模态资源，这种成功通常仅限于英语场景，因此很难在其他语言中建立有竞争力的对应资源。在本文中，我们介绍了 Ziya VL 系列，这是一组双语大型视觉语言模型 LVLM，旨在将视觉语义融入 LLM 中以进行多模态对话。我们的模型由 Ziya VL Base 和 Ziya VL Chat 组成，采用了 BLIP 2 中的 Querying Transformer，进一步探索了指令调优、多阶段训练和低阶自适应模块等优化方案对视觉语言对齐的辅助。此外，我们还激发了 GPT 4 在多模态场景中的理解能力，将我们收集的英文图像文本数据集翻译成中文，并通过上下文学习方法生成指令响应。实验结果表明，与现有的 LVLM 相比，Ziya VL 在各种纯英语任务中实现了具有竞争力的性能，包括零样本图像文本检索、图像字幕和视觉问答。 GPT 4访问的评估排行榜也表明我们的模型在中文多模态场景对话中具有令人满意的图像文本理解和生成能力。

Context Compression for Auto-regressive Transformers with Sentinel Tokens
Authors Siyu Ren, Qi Jia, Kenny Q. Zhu
注意力模块的二次复杂度使其在生成过程中逐渐成为基于 Transformer 的 LLM 中的计算量。此外，处理长输入时出现的过多键值缓存也会带来严重的内存占用和推理延迟问题。在这项工作中，我们提出了一种即插即用的方法，能够将指定范围的令牌的中间激活增量压缩为紧凑的令牌，从而在处理后续上下文时减少内存和计算成本。领域语言建模和零样本开放式文档生成的实验证明了我们的方法在流畅性、n gram 匹配和语义相似性方面优于稀疏注意力基线。最后，我们全面介绍了上下文压缩对改善系统整体的好处。

On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition
Authors Nick Rossenbach, Benedikt Hilmes, Ralf Schl ter
文本转语音 TTS 系统生成的合成数据可用于改进低资源或域不匹配任务中的自动语音识别 ASR 系统。事实证明，TTS 生成的输出仍然不具有与真实数据相同的质量。在这项工作中，我们重点关注合成数据的时间结构及其与 ASR 训练的关系。通过使用新颖的预言机设置，我们展示了非自回归 NAR TTS 中的持续时间建模对合成数据质量下降的影响有多大。为了获得参考音素持续时间，我们使用两种常见的对齐方法：隐马尔可夫高斯混合模型 HMM GMM 对齐器和神经联结时间分类 CTC 对齐器。

Fine-grained Conversational Decoding via Isotropic and Proximal Search
Authors Yuxuan Yao, Han Wu, Qiling Xu, Linqi Song
通用文本解码方法通常用于对话响应生成。尽管可以通过对话特定的编码方法来提高生成的响应的质量，但会话解码方法仍在探索中。受 citet wu2023 学习良好的对话特征空间应遵循局部性和各向同性规则的启发，我们提出了一种细粒度的会话解码方法，称为 textit 各向同性和近端搜索 IPS。我们的方法旨在生成语义集中的响应，同时仍然保持信息性和对上下文的区分。实验表明，我们的方法在自动和人工评估指标上都优于对话领域现有的解码策略。

Who Wrote it and Why? Prompting Large-Language Models for Authorship Verification
Authors Chia Yu Hung, Zhiqiang Hu, Yujia Hu, Roy Ka Wei Lee
作者身份验证 AV 是自然语言处理 NLP 和计算语言学中的一项基本任务，可应用于取证分析、抄袭检测和欺骗性内容识别。现有的自动驾驶技术，包括传统的风格测量和深度学习方法，都面临数据要求和缺乏可解释性方面的限制。为了解决这些限制，本文提出了 PromptAV，这是一种新技术，通过提供逐步的风格解释提示，利用 AV 的大型语言模型 LLM。

QASiNa: Religious Domain Question Answering using Sirah Nabawiyah
Authors Muhammad Razif Rizqullah 1 , Ayu Purwarianti 1 , Alham Fikri Aji 2 1 Bandung Institute of Technology, 2 Mohamed bin Zayed University of Artificial Intelligence
如今，问答 QA 任务受到了重要的研究重点，特别是随着 Chat GPT 1 等大型语言模型 LLM 的开发。 LLM可以应用于各个领域，但应用于伊斯兰领域时却与信息传输的原则相矛盾。在伊斯兰教中，我们严格监管信息来源以及谁可以对该来源做出解释或解释 2 。 LLM根据自己的解释生成答案的方法类似于tafseer的概念，LLM既不是伊斯兰专家，也不是伊斯兰教所不允许的人。印度尼西亚是世界上伊斯兰教信徒人口最多的国家3。鉴于LLM的影响力较高，我们有必要对宗教领域的LLM进行评价。目前，可用的宗教 QA 数据集很少，而且没有一个使用 Sirah Nabawiyah，尤其是印度尼西亚语。在本文中，我们提出了问答 Sirah Nabawiyah QASiNa 数据集，这是一个根据印尼语 Sirah Nabawiyah 文献编译的新颖数据集。我们使用 mBERT 4 、XLM R 5 和 IndoBERT 6 演示我们的数据集，这些数据集通过 SQuAD v2.0 7 的印尼语翻译进行了微调。 XLM R 模型在 QASiNa 上返回了最佳性能，EM 为 61.20，F1 分数为 75.94，子串匹配为 70.00。我们将 XLM R 性能与 Chat GPT 3.5 和 GPT 4 1 进行比较。两个 Chat GPT 版本都返回了较低的 EM 和 F1 分数，而子字符串匹配较高，GPT 4 中 EM 和子字符串匹配的差距变得更大。实验表明，Chat GPT 倾向于给出过多的解释，其子字符串匹配分数高于 EM 就证明了这一点和 F1 分数，即使在提供说明和上下文之后也是如此。

Promptor: A Conversational and Autonomous Prompt Generation Agent for Intelligent Text Entry Techniques
Authors Junxiao Shen, John J. Dudley, Jingyao Zheng, Bill Byrne, Per Ola Kristensson
文本输入是我们日常数字交互中的一项重要任务。为了简化这一过程，我们开发了许多智能功能，使文本输入更加有效、高效和流畅。这些改进包括句子预测和用户个性化。然而，随着基于深度学习的语言模型成为这些高级功能的标准，数据收集和模型微调的必要性也随之增加。通过利用 GPT 3.5 等大型语言模型的上下文学习功能可以缓解这些挑战。这一独特的功能允许语言模型通过提示来获取新技能，从而无需进行数据收集和微调。因此，大型语言模型可以学习各种文本预测技术。我们最初表明，对于句子预测任务，仅提示 GPT 3.5 就超越了 GPT 2 支持的系统，并且与微调的 GPT 3.5 模型相当，后两种方法需要昂贵的数据收集、微调和后处理。然而，提示大型语言模型专门从事特定文本预测任务的任务可能具有挑战性，特别是对于没有提示工程专业知识的设计人员而言。为了解决这个问题，我们引入了 Promptor，这是一种对话式提示生成代理，旨在主动与设计师互动。 Promptor 可以自动生成满足特定需求的复杂提示，从而为这一挑战提供解决方案。我们进行了一项用户研究，涉及 24 名参与者为三个智能文本输入任务创建提示，其中一半参与者使用 Promptor，而另一半参与者自己设计提示。

ClimateNLP: Analyzing Public Sentiment Towards Climate Change Using Natural Language Processing
Authors Ajay Krishnan T. K., V. S. Anoop
气候变化对人类健康的影响带来了前所未有的多样化挑战。除非采取基于确凿证据的主动措施，否则这些威胁可能会升级并继续危害人类福祉。信息和通信技术的不断进步促进了社交媒体平台的广泛可用性和利用。人们利用 Twitter 和 Facebook 等平台表达他们对各种主题的意见、想法和批评，其中包括气候变化这一紧迫问题。社交媒体上气候变化相关内容的激增需要进行全面分析，以收集有意义的见解。本文采用自然语言处理NLP技术来分析气候变化话语并量化气候变化相关推文的情绪。我们使用 ClimateBERT，这是一种专门针对气候变化领域进行微调的预训练模型。目的是辨别个人表达的情绪并揭示有关气候变化的公众舆论模式。分析推文情绪可以更深入地理解公众对这一关键全球挑战的看法、担忧和情绪。该实验的结果揭示了对公众情绪和与气候变化话语相关的实体的宝贵见解。

Low-Resource Clickbait Spoiling for Indonesian via Question Answering
Authors Ni Putu Intan Maharani, Ayu Purwarianti, Alham Fikri Aji
标题诱饵破坏旨在生成简短的文本，以满足标题诱饵帖子引起的好奇心。由于这是一项新引入的任务，因此该数据集目前仅提供英文版本。我们的贡献包括构建手动标记的印度尼西亚语点击诱饵破坏语料库，以及使用基于跨语言零样本问答的模型来解决印度尼西亚语等低资源语言的点击诱饵破坏问题的评估。我们利用多语言语言模型的选择。

To token or not to token: A Comparative Study of Text Representations for Cross-Lingual Transfer
Authors Md Mushfiqur Rahman, Fardin Ahsan Sakib, Fahim Faisal, Antonios Anastasopoulos
选择合适的标记化方案通常是低资源跨语言传输的瓶颈。为了了解文本表示选择的下游影响，我们对具有不同文本表示方式的语言模型进行了比较分析，包括 2 个基于分割的模型 texttt BERT 、 texttt mBERT 、1 个基于图像的模型 texttt PIXEL 和 1 个字符级模型 texttt CANINE 。首先，我们提出了一种评分语言商 LQ 指标，能够提供零样本和少样本评估组合的加权表示。利用这个指标，我们在 POS 标记、依存分析和 NER 三个任务上执行了包含 19 种源语言和 133 种目标语言的实验。我们的分析表明，当语言密切相关并且共享视觉上相似的脚本时，基于图像的模型在跨语言迁移方面表现出色。然而，对于偏向词义 POS、NER 的任务，基于分割的模型被证明是优越的。此外，在词关系起着至关重要作用的依存分析任务中，以字符级别为重点的模型表现优于其他模型。

Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Mo
Authors Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki
本文提出了一种简单且具有成本效益的方法来合成数据来训练问答系统。对于训练来说，微调 GPT 模型是英语等资源丰富的语言中的常见做法，然而，由于缺乏足够的问答 QA 对，这对于非英语语言来说变得具有挑战性。现有的方法使用基于人类编写的 QA 对进行训练的问答生成器，这涉及大量的人力成本。相比之下，我们使用指令调整模型以零样本或少量样本的方式生成 QA 对。我们进行实验来比较从指令调整模型中获取 QA 对的各种策略。

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models
Authors Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, Bohan Zhuang
大型语言模型法学硕士在 NLP 方面表现出色，但他们的需求阻碍了其广泛部署。虽然量化感知培训 QAT 提供了一种解决方案，但其大量的培训成本使培训后量化 PTQ 成为法学硕士更实用的方法。在现有研究中，特定通道中的激活异常值被认为是 PTQ 准确性的瓶颈。他们建议将幅度从激活转换为权重，然而，这提供了有限的缓解或遭受不稳定梯度的影响，导致低位宽下性能严重下降。在本文中，我们提出了 QLLM，一种专为 LLM 设计的准确且高效的低位宽 PTQ 方法。 QLLM 引入了自适应通道重组技术，将异常值的幅度重新分配给其他通道，从而减轻它们对量化范围的影响。这是通过通道拆卸和通道组装来实现的，通道拆卸和组装首先将离群通道分解为多个子通道，以确保激活幅度的分布更加平衡。然后合并相似的通道以保持原始通道数以提高效率。此外，还设计了自适应策略来自主确定用于通道分解的最佳子通道数量。为了进一步补偿量化造成的性能损失，我们提出了一种有效的调整方法，该方法仅学习少量的低秩权重，同时冻结预训练的量化模型。训练后，这些低秩参数可以融合到冻结权重中，而不影响推理。 LLaMA 1 和 LLaMA 2 上的大量实验表明，QLLM 可以有效地获得准确的量化模型。

Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection
Authors Yi Dai, Hao Lang, Kaisheng Zeng, Fei Huang, Yongbin Li
分布式 OOD 检测对于可靠且值得信赖的机器学习至关重要。最近的多模式 OOD 检测利用分布 ID 类名称中的文本信息进行视觉 OOD 检测，但目前忽略了 ID 类的丰富上下文信息。大型语言模型 LLM 编码了丰富的世界知识，并且可以提示为每个类别生成描述性特征。正如我们的分析所观察到的，由于法学硕士的幻觉，不加区别地使用这些知识会对 OOD 检测造成灾难性的损害。在本文中，我们建议通过法学硕士的选择性生成来应用世界知识来增强 OOD 检测性能。具体来说，我们引入了一种基于一致性的不确定性校准方法来估计每一代的置信度得分。我们进一步从每个图像中提取视觉对象，以充分利用上述世界知识。

Harnessing Large Language Models' Empathetic Response Generation Capabilities for Online Mental Health Counselling Support
Authors Siyuan Brandon Loh, Aravind Sesagiri Raamkumar
大型语言模型法学硕士在各种信息搜索和推理任务中表现出了卓越的表现。这些计算系统驱动最先进的对话系统，例如 ChatGPT 和 Bard。尽管相对而言尚未探索，但它们在满足精神卫生保健日益增长的需求方面也具有巨大的前景。因此，本研究旨在检验法学硕士在模拟心理健康咨询环境中的对话中产生同理心反应的能力。我们选择了生成式预训练 GPT 的 5 个法学硕士版本 3.5 和版本 4、Vicuna FastChat T5、Pathways Language Model PaLM 版本 2 和 Falcon 7B Instruct。基于简单的指导提示，这些模型对来自 EmpatheticDialogues ED 数据集的话语做出响应。使用三个同理心相关指标，我们将他们的响应与传统响应生成对话系统的响应进行比较，这些系统在 ED 数据集上进行了微调，以及人类生成的响应。值得注意的是，我们发现法学硕士的反应在大多数情况下都更加富有同理心。

Clustering of Spell Variations for Proper Nouns Transliterated from the other languages
Authors Prathamesh Pawar
文本数据处理和操作的突出问题之一是文本数据的不一致性。由于方言、语言的变化，翻译质量较低。这在文本数据中使用 NLP 时产生了一个独特的问题，即由于翻译和音译不一致而产生的拼写变异。将印度语言的专有名词写成英语对应词的各种方法所产生的人为错误也可能进一步加剧这个问题。翻译源自印度语言的专有名词可能很复杂，因为某些专有名词也用作普通名词，可以按字面意思理解。需要地址、名称和其他专有名词的 NLP 应用经常面临这个问题。我们提出了一种使用机器学习技术和数学相似方程对专有名词的拼写变体进行聚类的方法。我们的目标是使用亲和力传播来确定标记之间的相对相似性。通过按照相似性阈值过滤标记变体对来增强结果。我们能够大幅减少法术变化。

A New Approach Towards Autoformalization
Authors Nilay Patel, Jeffrey Flanigan, Rahul Saha
验证数学证明很困难，但可以在计算机的帮助下实现自动化。自动形式化是将自然语言数学自动翻译成可以由程序验证的形式语言的任务。这是一项具有挑战性的任务，特别是对于研究论文中发现的高级数学而言。研究论文数学需要大量的背景和背景。在本文中，我们提出了一种解决研究级数学自动形式化的途径，将任务分解为更容易、更容易理解的子任务，将形式化形式化与未链接的定义和定理、实体链接到适当的定理和定义，最后调整类型，以便它通过了类型检查器。

Crosslingual Structural Priming and the Pre-Training Dynamics of Bilingual Language Models
Authors Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen
多语言语言模型是否共享跨语言的抽象语法表示？如果是，这些模型何时开发？ 2022 年，我们使用结构启动来测试对模型输出具有因果影响的抽象语法表示。我们将该方法扩展到荷兰语英语双语环境，并在预训练期间评估荷兰语英语语言模型。我们发现跨语言结构启动效应在接触第二语言后很早就出现，该语言的数据标记不足 100 万个。

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention
Authors Huiyin Xue, Nikolaos Aletras
扩展预先训练的语言模型在各种自然语言处理任务中带来了巨大的性能提升，但同时也带来了巨大的内存需求成本。受到 Transformer 中位置嵌入的启发，我们的目标是简化和减少多头注意力 MHA 机制的内存占用。我们提出了一种替代模块，该模块仅使用单个共享投影矩阵和多个头嵌入 MHE，即每个头一个。我们凭经验证明，与其他注意力机制相比，我们的 MHE 注意力具有更高的记忆效率，同时在几个下游任务上实现了比普通 MHA 更高的预测性能保留率。

TabLib: A Dataset of 627M Tables with Context
Authors Gus Eggert, Kevin Huo, Mike Biven, Justin Waugh
众所周知，大型、多样化的数据集在现代人工智能系统文本和图像模式的性能中发挥着关键作用。但是，没有与文本和图像数据集具有可比大小和多样性的表格数据数据集。因此，我们提出了 TabLib，它是 6.27 亿张表的汇编，总计 69 TiB，以及 867B 上下文标记。 TabLib 是从多种文件格式中提取的，包括 CSV、HTML、SQLite、PDF、Excel 等，源自 GitHub 和 Common Crawl。

Assessing Evaluation Metrics for Neural Test Oracle Generation
Authors Jiho Shin, Hadi Hemmati, Moshi Wei, Song Wang
在这项工作中，我们重新审视现有的预言机生成研究和 ChatGPT，以实证研究它们在基于 NLG 和测试充分性指标方面的当前表现状况。具体来说，我们在五个基于 NLG 的模型和两个测试充分性指标上训练和运行四个最先进的测试预言机生成模型，以进行分析。我们在这两组不同的指标之间应用两种不同的相关性分析。令人惊讶的是，我们发现基于 NLG 的指标和测试充分性指标之间没有显着的相关性。例如，在所研究的 NOG 中，在项目 activemq artemis 上从 ChatGPT 生成的预言机在所有基于 NLG 的指标上具有最高的性能，但是，与所有研究的 NOG 相比，它的测试充分性指标下降的项目数量最多。我们进一步进行定性分析来探讨我们观察背后的原因，我们发现具有高 NLG 指标但测试充分性指标低的预言机往往在预言机参数内具有复杂或多个链式方法调用，这使得模型很难完全生成，影响测试充分性指标。另一方面，基于 NLG 的指标较低但测试充分性指标较高的预言机往往必须调用不同的断言类型或功能与基本事实中的方法类似的不同方法。

Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations
Authors Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin
高质量训练数据的收集和管理对于开发具有卓越性能的文本分类模型至关重要，但它通常需要大量的成本和时间投入。研究人员最近探索了使用大型语言模型法学硕士来生成合成数据集作为替代方法。然而，法学硕士生成的合成数据在支持模型训练方面的有效性在不同的分类任务中并不一致。为了更好地了解影响法学硕士生成的合成数据有效性的因素，在本研究中，我们研究了在这些合成数据上训练的模型的性能如何随着分类的主观性而变化。我们的结果表明，任务级别和实例级别的主观性与在合成数据上训练的模型的性能呈负相关。

Framework for Question-Answering in Sanskrit through Automated Construction of Knowledge Graphs
Authors Hrishikesh Terdalkar, Arnab Bhattacharya
梵文 sa d m sk dr ta 享有全世界最大、最多样化的文学作品之一。然而，由于语言的复杂性和标准自然语言处理工具的缺乏等多种原因，从中提取知识是一项具有挑战性的任务。在本文中，我们的目标是从 sa d m sk d r ta 文本中为特定类型的关系构建知识图谱。我们在 sa d m sk dr ta 中构建了一个自然语言问答系统，它使用知识图来回答事实问题。我们为整个系统设计了一个框架，并实现了两个独立的系统实例，分别来自 mah bh rata 和 r myad na，以及一个来自 bh vaprak a nigha d n d tu（yurveda 的技术文本）的同义关系实例。我们证明系统可以正确回答大约 50 个事实问题。

Does Synthetic Data Make Large Language Models More Efficient?
Authors Sia Gholami, Marwan Omar
随着深度学习方法的出现，自然语言处理 NLP 经历了革命性的变化。研究人员持续面临的一项挑战是驱动这些模型的高质量、带注释的数据集的稀缺。本文探讨了 NLP 中合成数据生成的细微差别，重点是基于模板的问题生成。通过评估其优势，包括数据增强潜力和结构化多样性的引入，我们将这些优势与固有限制（例如过度拟合的风险和预定义模板带来的约束）并列。根据经验评估，我们证明了基于模板的合成数据对现代变压器模型性能的影响。最后，我们强调合成数据和现实世界数据之间所需的微妙平衡，以及将合成数据集成到模型训练管道中的未来轨迹。

Antarlekhaka: A Comprehensive Tool for Multi-task Natural Language Annotation
Authors Hrishikesh Terdalkar 1 , Arnab Bhattacharya 1 1 Indian Institute of Technology Kanpur
低资源语言自然语言处理 NLP 技术发展的主要障碍之一是缺乏用于训练和测试机器学习模型的带注释数据集。在本文中，我们提出了 Antarlekhaka，这是一种用于手动注释与 NLP 相关的一组综合任务的工具。该工具兼容 Unicode、与语言无关、可在 Web 上部署，并支持多个同步注释器进行分布式注释。该系统为 8 类注释任务提供用户友好的界面。反过来，这些可以对大量 NLP 任务进行注释。任务类别包括两个其他工具无法处理的语言任务，即句子边界检测和确定规范词序，这对于诗歌形式的文本来说是重要的任务。我们提出了基于小文本单元的顺序注释的想法，其中注释器在继续下一个单元之前执行与单个文本单元相关的多个任务。还讨论了所提出的多任务注释模式的研究应用。 Antarlekhaka 在客观评估方面优于其他标注工具。它还用于两种不同语言（即梵语和孟加拉语）的现实生活注释任务。

Non-autoregressive Text Editing with Copy-aware Latent Alignments
Authors Yu Zhang, Yue Zhang, Leyang Cui, Guohong Fu
最近的工作见证了文本编辑领域从 Seq2Seq 到 Seq2Edit 的范式转变，旨在解决前者带来的缓慢自回归推理问题。尽管结果令人鼓舞，Seq2Edit 方法仍然面临一些挑战，例如生成不灵活以及难以推广到其他语言。在这项工作中，我们提出了一种新颖的非自回归文本编辑方法，通过使用潜在 CTC 对齐对编辑过程进行建模来规避上述问题。我们通过将复制操作引入编辑空间，对 CTC 进行了重要扩展，从而能够更有效地管理编辑中的文本重叠。我们对 GEC 和句子融合任务进行了广泛的实验，表明我们提出的方法显着优于现有的 Seq2Edit 模型，并取得了与 Seq2Seq 相似甚至更好的结果，加速超过 4 倍。此外，它在德语和俄语上表现出良好的通用性。

Faithfulness Measurable Masked Language Models
Authors Andreas Madsen, Siva Reddy, Sarath Chandar
解释 NLP 模型的常见方法是使用重要性度量来表达哪些标记对于预测很重要。不幸的是，这样的解释尽管很有说服力，但常常是错误的。因此，衡量他们的忠诚度至关重要。其中一个指标是，如果令牌确实很重要，那么屏蔽它们应该会导致模型性能更差。然而，令牌屏蔽引入了分配问题，并且现有解决方案的计算成本很高并且采用代理模型。此外，其他指标的范围非常有限。在这项工作中，我们提出了一个本质上的忠诚度可衡量模型来解决这些挑战。这是通过使用一种新颖的微调方法来实现的，该方法结合了掩蔽，使得掩蔽令牌通过设计而分布。这与现有方法不同，现有方法完全与模型无关，但在实践中不适用。我们通过将其应用于各种任务来证明我们的方法的通用性，并使用分布测试中的统计数据对其进行验证。

Exploring the Relationship between Analogy Identification and Sentence Structure Encoding in Large Language Models
Authors Thilini Wijesiriwardene, Ruwan Wickramarachchi, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
识别类比在人类认知和语言能力中起着关键作用。在过去的十年中，人们对单词类比进行了广泛的研究，其形式为 A 与 B 的形式，就像 C 与 D 的形式。然而，人们对涉及较长文本的类比越来越感兴趣，例如句子和句子的集合，这传达类似的含义。虽然当前的 NLP 研究界正在评估大型语言模型法学硕士识别此类类比的能力，但这些能力背后的根本原因值得更深入的研究。此外，法学硕士在其嵌入中编码语言的句法和语义结构的能力随着其利用率的激增而引起了人们的广泛关注。在这项工作中，我们研究了多个法学硕士识别句子类比的能力与其编码句法和语义结构的能力之间的关系。通过分析，我们发现法学硕士的类比识别能力与其编码句子句法和语义结构的能力呈正相关。

A general mechanism of humor: reformulating the semantic overlap
Authors Javier Mart nez
本文提出了一种普遍适用的幽默认知机制，不仅限于言语交流。它得益于拉斯金的脚本重叠概念，并且符合不协调解决理论框架，但它是建立在约束概念之上的，约束是数据集之间的抽象对应关系。根据这种观点，脚本重叠是一种更抽象描述的现象（约束重叠）的结果。引入被忽视论证这一重要概念来刻画显性约束和隐性约束两个重叠的约束。它们的输入和输出并不直接编码在话语中，而是受到它们的暗示，并且它们的重叠导致了所传达的话语层面上的另一次重叠，这一点不一致揭示了这一点。我们的假设假定，此类约束的引发是听者解释话语的推理过程的认知效果。我们的这一假设基于霍夫施塔特的类比理论，该理论是人类思想的本质。

Ontology Enrichment for Effective Fine-grained Entity Typing
Authors Siru Ouyang, Jiaxin Huang, Pranav Pillai, Yunyi Zhang, Yu Zhang, Jiawei Han
细粒度实体类型 FET 的任务是根据上下文信息在细粒度级别上识别实体提及的特定实体类型。 FET 的传统方法需要大量的人工注释，既耗时又昂贵。最近的研究一直在开发弱监督或零样本方法。我们研究了仅提供本体的零触发 FET 的设置。然而，大多数现有的本体结构缺乏丰富的支持信息，甚至包含模糊的关系，使得它们不能有效地指导FET。最近开发的语言模型虽然在各种少样本和零样本 NLP 任务中很有前景，但由于缺乏与任务特定本体的交互，可能在零样本 FET 中面临挑战。在本研究中，我们提出了 OnEFET，其中我们 1 用两种类型的额外信息实例信息来丰富本体结构中的每个节点，用于训练样本增强和主题信息以将类型与上下文相关联，并且 2 开发一种粗略到精细的类型算法，该算法利用通过使用对比主题和基于实例的增强训练样本训练蕴含模型来丰富信息。

GenTKG: Generative Forecasting on Temporal Knowledge Graph
Authors Ruotong Liao, Xu Jia, Yunpu Ma, Volker Tresp
大型语言模型法学硕士的快速进步引发了人们对时间知识图 tKG 领域的兴趣，其中传统精心设计的基于嵌入和基于规则的模型占主导地位。预训练的法学硕士是否可以理解结构化时间关系数据并取代它们作为时间关系预测的基础模型，这一问题仍然悬而未决。因此，我们将时间知识预测带入生成环境中。然而，复杂的时间图数据结构和 LLM 可以处理的顺序自然表达之间的巨大鸿沟，以及 tKG 的巨大数据量和微调 LLM 的繁重计算成本之间的巨大鸿沟都存在挑战。为了应对这些挑战，我们提出了一种新颖的检索增强生成框架，该框架对名为 GenTKG 的 tKG 进行生成预测，该框架结合了基于时间逻辑规则的检索策略和轻量级参数高效指令调整。大量实验表明，在低计算资源下，GenTKG 优于传统的时间关系预测方法。 GenTKG 还强调了卓越的可迁移性，无需重新训练即可在未见过的数据集上表现出色。

Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models
Authors Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge
视觉语言模型 VLM 开发的最新进展在识别视觉语义内容方面取得了显着的成功，包括令人印象深刻的组合图像理解实例。在这里，我们介绍了 textit 视觉数据类型识别的新任务，这是一种基本的感知技能，对数据管理具有影响，例如从大型数据集中去除噪声数据、领域特定检索和自主视觉，例如区分不断变化的天气条件和相机镜头染色。我们开发了两个数据集，其中包含在 27 种视觉文本数据类型的不同集合中更改的动物图像，涵盖四大类。对 39 个 VLM（参数范围从 100M 到 80B）进行了广泛的零样本评估，显示了微妙的性能状况。虽然 VLM 相当擅长识别某些风格的 textit 数据类型（例如卡通和草图），但它们很难处理由图像旋转或附加噪声等基本操作产生的更简单的 textit 数据类型。我们的研究结果表明，对于像 CLIP 这样经过对比训练的模型，仅模型缩放就可以产生边际增益，而对于像 OpenFlamingo 这样的最大的自动回归训练的 VLM 来说，性能显着下降。这一发现指出了当前前沿 VLM 的盲点，它们擅长识别语义内容，但无法通过缩放来理解视觉文本数据类型。通过分析这些模型的预训练分布并在微调期间将 textit 数据类型信息合并到标题中，我们实现了性能的显着提高。通过探索这个以前未知的任务，我们的目标是为进一步推进 VLM 奠定基础，使其具备可视化数据类型理解能力。

Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining
Authors Licong Lin, Yu Bai, Song Mei
在离线强化学习数据集上预训练的大型 Transformer 模型在上下文强化学习 ICRL 功能中表现出了出色的能力，当来自未见环境的交互轨迹提示时，它们可以做出正确的决策。然而，何时以及如何训练变压器来执行 ICRL 在理论上尚未得到很好的理解。特别是，尚不清楚哪些强化学习算法 Transformer 可以在上下文中执行，以及离线训练数据中的分布不匹配如何影响学习算法。本文提供了一个分析 ICRL 监督预训练的理论框架。这包括最近提出的两种训练方法：算法蒸馏和决策预训练变压器。首先，假设模型可实现，我们证明有监督的预训练 Transformer 将在给定观察到的轨迹的情况下模仿专家算法的条件期望。泛化误差将随着模型容量以及专家算法和离线算法之间的分布差异因子而变化。其次，我们展示了具有 ReLU 注意力的 Transformer 可以有效地逼近接近最优的在线强化学习算法，例如用于随机线性老虎机的 LinUCB 和 Thompson 采样，以及用于表格马尔可夫决策过程的 UCB VI。

Formally Specifying the High-Level Behavior of LLM-Based Agents
Authors Maxwell Crouse, Ibrahim Abdelaziz, Kinjal Basu, Soham Dan, Sadhana Kumaravel, Achille Fokoue, Pavan Kapanipathi, Luis Lastras
基于 LLM 的代理最近已成为解决具有挑战性问题的有前景的工具，而无需购买昂贵的特定任务的微调模型。目前，此类代理的设计和实现是临时的，因为基于 LLM 的代理可能适用于各种各样的任务，这自然意味着不可能有一种适合所有代理设计的方法。在这项工作中，我们的目标是通过提出一个简约的高级生成框架来简化构建代理的过程，从而减轻设计和实现新代理的难度。我们引入的框架允许用户在线性时序逻辑 LTL 中指定所需的代理行为。然后，使用声明性 LTL 规范构建一个约束解码器，以保证 LLM 将产生表现出所需行为的输出。通过以这种方式设计我们的框架，我们获得了多种好处，包括强制执行复杂代理行为的能力、正式验证提示示例的能力以及将以内容为中心的逻辑约束无缝合并到生成中的能力。特别是，我们的声明性方法，其中简单地描述所需的行为，而不关心如何实施或强制执行，可以使用不同的基于 LLM 的代理进行快速设计、实施和实验。我们演示了如何使用所提出的框架来实现最近基于 LLM 的代理，并展示我们的方法提供的护栏如何能够提高代理性能。

MCU: A Task-centric Framework for Open-ended Agent Evaluation in Minecraft
Authors Haowei Lin, Zihao Wang, Jianzhu Ma, Yitao Liang
为了实现在 Minecraft（一个具有无限可能性的开放式游戏环境）中创建开放式代理的目标，本文引入了一种名为 MCU 的以任务为中心的框架，用于 Minecraft 代理评估。 MCU 框架利用原子任务的概念作为基本构建块，从而能够生成多种甚至任意任务。在 MCU 框架内，每个任务都用六个不同的难度分数来衡量：时间消耗、操作工作量、规划复杂性、复杂性、创造力、新颖性。这些分数从不同角度对任务进行多维度评估，从而可以揭示代理在特定方面的能力。难度分数也作为每个任务的特征，它创建了一个有意义的任务空间并揭示了任务之间的关系。为了有效评估采用 MCU 框架的 Minecraft 代理，我们维护了一个统一的基准，即 SkillForge，其中包含具有不同类别和难度分布的代表性任务。我们还为用户提供方便的过滤器来选择任务来评估代理的特定能力。

Defending Our Privacy With Backdoors
Authors Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting
基于未经整理的、通常敏感的网络抓取数据进行训练的大型人工智能模型的激增引发了严重的隐私问题。担忧之一是对手可以利用隐私攻击提取有关训练数据的信息。不幸的是，在不牺牲性能的情况下从模型中删除特定信息的任务并不简单，并且已被证明具有挑战性。我们提出了一种基于后门攻击的相当简单而有效的防御方法，以删除模型中的个人姓名等私人信息，并将这项工作的重点放在文本编码器上。具体来说，通过策略性地插入后门，我们将敏感短语的嵌入与中性术语（人而不是人名）的嵌入对齐。我们的实证结果通过使用针对零样本分类器的专门隐私攻击来评估其性能，证明了我们基于后门的 CLIP 防御的有效性。

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text
Authors Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain
自动语音识别 ASR 的质量通常通过单词错误率 WER 来衡量。 WER 估计是一项旨在在给定语音和转录的情况下预测 ASR 系统的 WER 的任务。随着先进的 ASR 系统接受大量数据的训练，这项任务越来越受到关注。在这种情况下，WER 估计在许多场景中变得必要，例如，选择转录质量未知的训练数据或估计没有真实转录的 ASR 系统的测试性能。面对大量数据，WER估计器的计算效率在实际应用中变得至关重要。然而，以前的作品通常没有将其视为优先事项。本文介绍了一种使用自监督学习表示 SSLR 的快速 WER 估计器 Fe WER。该估计器建立在通过平均池聚合的 SSLR 之上。结果表明，Fe WER 在 Ted Lium3 上的均方根误差和皮尔逊相关系数两个评估指标上分别比 e WER3 基线高出 19.69 和 7.16。此外，当目标为 10.88 时，按持续时间加权的估计为 10.43 。

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
Authors Matthew Baas, Herman Kamper
语音转换旨在以目标说话人的录音为参考，将源语音转换为目标语音。较新的模型正在产生越来越真实的输出。但是，当模型输入非标准数据（例如来自有语言障碍的用户的语音）时会发生什么我们研究了最近的语音转换模型在非标准下游语音转换任务上的执行情况。我们使用一种简单但稳健的方法，称为 k 最近邻语音转换 kNN VC 。我们看一下四种非标准应用程序：口吃语音转换、跨语言语音转换、乐器转换和文本到语音转换。后者涉及转换为通过文本描述指定的目标语音，例如一个声音高亢的年轻人。与已建立的基线相比，我们发现 kNN VC 在口吃和跨语言语音转换方面保留了高性能。乐器和文本到语音转换任务的结果更加复杂。例如，kNN VC 在鼓等某些乐器上效果很好，但在其他乐器上效果不佳。尽管如此，这表明语音转换模型，尤其是 kNN VC 越来越适用于一系列非标准下游任务。但当样本距离训练分布很远时，仍然存在局限性。

Rethinking Negative Pairs in Code Search
Authors Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao
最近，对比学习已成为微调代码搜索模型以提高软件开发效率和有效性的关键组成部分。它将积极的代码片段汇集在一起，同时将消极的样本排除在给定的搜索查询之外。在对比学习中，InfoNCE由于其更好的性能而成为使用最广泛的损失函数。然而，InfoNCE 负样本中的以下问题可能会恶化其表示学习： 1 由于重复，在大型代码语料库中存在假负样本。 2.未能明确区分负样本的潜在相关性。作为示例，对于快速排序算法查询，冒泡排序算法示例比文件保存功能的负面影响较小。在本文中，我们通过提出一种简单而有效的 Soft InfoNCE 损失来解决上述问题，该损失将权重项插入 InfoNCE 中。在我们提出的损失函数中，我们应用三种方法来估计负对的权重，并表明普通 InfoNCE 损失是 Soft InfoNCE 的特例。从理论上讲，我们分析了 Soft InfoNCE 在控制学习代码表示的分布和推导更精确的互信息估计方面的效果。我们还讨论了所提出的损失函数与其他设计方案的优越性。大量实验证明了 Soft InfoNCE 和权重估计方法在由六种编程语言组成的大规模公共数据集上最先进的代码搜索模型下的有效性。

Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation
Authors Yinpei Dai, Run Peng, Sikai Li, Joyce Chai
零射击对象导航 ZSON 使代理能够在未知环境中导航到开放词汇对象。 ZSON 的现有工作主要集中于遵循单独的指令来查找通用对象类，忽略了自然语言交互的利用以及识别用户特定对象的复杂性。为了解决这些限制，我们引入了零样本交互式个性化对象导航 ZipON，其中机器人需要在与用户对话的同时导航到个性化目标对象。为了解决 ZipON 问题，我们提出了一个名为开放世界交互式个性化导航 ORION 的新框架，它使用大型语言模型 LLM 做出顺序决策来操纵不同的感知、导航和通信模块。实验结果表明，能够利用用户反馈的交互代理的性能有了显着的提高。然而，对于所有方法来说，在任务完成与导航和交互效率之间获得良好的平衡仍然具有挑战性。

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning
Authors Adyasha Maharana, Prateek Yadav, Mohit Bansal
分析理论表明，在固定数据预算上训练的模型中，更高质量的数据可以降低测试错误。此外，如果可以去除数据集的冗余，则可以在较低的计算预算上训练模型，而不会影响性能。核心集选择或数据修剪旨在选择训练数据的子集，以便最大化在该子集（也称为核心集）上训练的模型的性能。有两种主要方法：1 基于几何的数据选择，用于最大化核心集中的数据多样性；2 函数，根据训练动态为样本分配难度分数。针对数据多样性进行优化会导致核心集偏向于更简单的样本，而按难度排名进行选择会忽略深度学习模型训练所需的简单样本。这表明数据多样性和重要性得分是核心集选择过程中需要共同考虑的两个互补因素。我们将数据集表示为无向图，并提出了一种新颖的修剪算法 D2 修剪，该算法使用在该数据集图上传递的前向和反向消息来进行核心集选择。 D2 剪枝通过将数据集中相邻示例的难度合并起来来更新每个示例的难度分数。然后，这些更新的难度分数指导基于图的采样方法来选择封装数据集空间的多样化和困难区域的核心集。我们在各种视觉和语言数据集上评估我们方法的监督和自监督版本。结果表明，与之前最先进的方法相比，D2 剪枝改进了核心集选择，剪枝率高达 70。

The Expresssive Power of Transformers with Chain of Thought
Authors William Merrill, Ashish Sabharwal
最近的理论工作已经发现了令人惊讶的简单推理问题，例如检查图中的两个节点是否连接或模拟有限状态机，这些问题被证明是无法通过在读取输入后立即回答的标准变压器来解决的。然而，在实践中，变压器的推理可以通过允许他们使用思想链或暂存器来改进，即在回答之前生成一系列中间标记并对其进行条件限制。受此启发，我们问这样的中间生成是否从根本上扩展了仅解码器变压器的计算能力我们表明答案是肯定的，但增加的量主要取决于中间生成的量。例如，我们发现 Transformer 解码器具有对数数量的解码步骤。输入长度仅略微超出了标准转换器的限制，而线性数量的解码步骤在识别所有常规语言的标准复杂性猜想下增加了明显的新能力。我们的结果还表明，线性步骤使变压器解码器保持在上下文敏感语言内，而多项式步骤使它们能够准确识别多项式时间可解问题的类别，这是根据标准复杂性类别对变压器类型进行的第一个准确表征。

LangNav: Language as a Perceptual Representation for Navigation
Authors Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
我们探索使用语言作为视觉和语言导航的感知表示。我们的方法使用现成的视觉系统进行图像字幕和对象检测，将代理在每个时间步骤的以自我为中心的全景视图转换为自然语言描述。然后，我们对预训练的语言模型进行微调，以根据当前视图和轨迹历史记录来选择最能满足导航指令的操作。与采用预训练语言模型直接使用预训练视觉模型中的连续视觉特征的标准设置相反，我们的方法使用离散语言作为感知表示。我们在 R2R 视觉和语言导航基准上探索了基于语言的导航 LangNav 方法的两个用例，从提示的大语言模型 GPT 4 生成合成轨迹，用它来微调较小的语言模型并模拟到真实的迁移，其中我们迁移了学习到的策略在模拟环境 ALFRED 到真实环境 R2R 上。

Language Models As Semantic Indexers
Authors Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han, Xianfeng Tang
语义标识符 ID 是信息检索中的一个重要概念，旨在保留对象（例如文档和项目）在其 ID 内的语义。以前的研究通常采用两阶段管道来学习语义 ID，首先使用现成的文本编码器获取嵌入，然后根据嵌入导出 ID。然而，每个步骤都会引入潜在的信息丢失，并且文本编码器产生的潜在空间内的嵌入分布与语义索引所需的预期分布之间通常存在固有的不匹配。然而，考虑到语义 ID 是离散且顺序结构化的，并且语义监督存在缺陷，设计一种能够同时学习文档语义表示及其层次结构的方法并非易事。在本文中，我们介绍了 LMINDEXER，这是一个使用生成语言模型学习语义 ID 的自监督框架。我们通过引入能够通过渐进训练和对比学习生成神经顺序离散表示的语义索引器来解决顺序离散 ID 的挑战。针对语义监督的缺陷，我们建议以自监督文档重建目标来训练模型。学习到的语义索引器可以促进各种下游任务，例如推荐和检索。

Jaynes Machine: The universal microstructure of deep neural networks
Authors Venkat Venkatasubramanian, N. Sanjeevrajan, Manasi Khandekar
我们提出了一种关于深度神经网络微观结构的新颖理论。使用称为统计远程动力学的理论框架（统计热力学和势博弈论的概念综合），我们预测深度神经网络的所有高度连接层都具有连接强度的通用微观结构，该结构呈对数正态分布 LN mu , sigma 。此外，在理想条件下，该理论预测所有网络中所有层的 mu 和 sigma 都是相同的。这被证明是套利平衡的结果，其中所有连接都竞争并为整体损失函数的最小化贡献相同的有效效用。这些令人惊讶的预测得到了现实生活中六个大型深度神经网络的经验数据的支持。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com