【AI视野·今日NLP 自然语言处理论文速览第二十五期】Fri, 1 Oct 2021

最新推荐文章于 2024-06-25 10:40:54 发布

hitrjj

最新推荐文章于 2024-06-25 10:40:54 发布

阅读量597

点赞数

分类专栏： NLP Papers 文章标签：自然语言处理预训练模型 transformer

本文链接：https://blog.csdn.net/u014636245/article/details/120590806

版权

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 1 Oct 2021
Totally 36 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Semi-Supervised Text Classification via Self-Pretraining
Authors Payam Karisani, Negin Karisani
我们提出了一种称为自我预训练的神经半监督学习模型。我们的模型受到经典自训练算法的启发。然而，与自我训练相反，自我预训练是无阈值的，它可以潜在地更新对先前标记文档的信念，并且可以应对语义漂移问题。自预训练是迭代的，由两个分类器组成。在每次迭代中，一个分类器随机抽取一组未标记的文档并标记它们。该集合用于初始化第二个分类器，由标记文档集合进一步训练。算法进行下一次迭代，分类器的角色互换。为了改善迭代中的信息流并处理语义漂移问题，Self Pretraining 采用了迭代蒸馏过程，在迭代中转移假设，利用两阶段训练模型，使用有效的学习率计划，并采用了伪标签转换启发式。我们已经在三个公开可用的社交媒体数据集中评估了我们的模型。我们的实验表明，自我预训练在多个设置中优于现有的最先进的半监督分类器。

Multi-granular Legal Topic Classification on Greek Legislation
Authors Christos Papaloukas, Ilias Chalkidis, Konstantinos Athinaios, Despina Athanasia Pantazi, Manolis Koubarakis
在这项工作中，我们研究了对用希腊语书写的法律文本进行分类的任务。我们引入并公开了一个基于希腊立法的新数据集，其中包含超过 47,000 个官方分类的希腊立法资源。我们对这个数据集进行了实验，并评估了一系列先进的方法和分类器，从传统的机器学习和基于 RNN 的方法到最先进的基于 Transformer 的方法。我们表明，具有特定领域词嵌入的循环架构提供了改进的整体性能，同时甚至与基于转换器的模型相比也具有竞争力。最后，我们展示了基于尖端多语言和单语转换器的模型在分类器排名的顶部争吵，使我们质疑训练单语迁移学习模型的必要性作为经验法则。

MatSciBERT: A Materials Domain Language Model for Text Mining and Information Extraction
Authors Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam
材料领域的大量知识被生成并存储为发表在同行评审的科学文献中的文本。自然语言处理的最新发展，例如来自转换器 BERT 模型的双向编码器表示，为从这些文本中提取信息提供了有前途的工具。然而，在材料领域直接应用这些模型可能会产生次优结果，因为模型本身可能没有接受过特定于该领域的符号和术语的训练。在这里，我们提出了一个材料感知语言模型，即 MatSciBERT，它是在材料领域发表的大量科学文献上训练的。我们进一步评估了 MatSciBERT 在三个下游任务上的性能，即抽象分类、命名实体识别和不同材料数据集的关系提取。我们表明 MatSciBERT 在所有任务上都优于 SciBERT，后者是一种在科学语料库上训练的语言模型。此外，我们讨论了 MatSciBERT 在材料领域提取信息的一些应用，这反过来又有助于材料发现或优化。

Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks
Authors Yichen Jiang, Mohit Bansal
系统组合性是人类语言的基本机制，允许重组已知部分以创建新的表达方式。然而，现有的神经模型已被证明在学习符号结构方面缺乏这种基本能力。由于 Transformer 模型在 SCAN 组合性挑战 Lake and Baroni, 2018 上的失败，需要将命令解析为动作，我们提出了两个辅助序列预测任务来跟踪函数和参数语义的进展，作为额外的训练监督。这些自动生成的序列更能代表输入数据的底层组合符号结构。在推理过程中，模型在每一步联合预测辅助序列中的下一个动作和下一个标记。在 SCAN 数据集上的实验表明，我们的方法鼓励 Transformer 理解命令的组成结构，将其在多个具有挑战性的分割上的准确性从 10 提高到 100。只有 418 5 个训练实例，我们的方法在 MCD1 分割上仍然达到了 97.8 的准确率。因此，我们认为，在给予最少但适当的指导的情况下，可以在 Transformer 中诱导组合性。我们还表明，使用较少语境化的向量作为注意力查询可以获得更好的结果，为实现系统组合性的架构选择提供了见解。最后，我们在 GroundedSCAN 任务 Ruis et al., 2020 上展示了积极的泛化结果。

SlovakBERT: Slovak Masked Language Model
Authors Mat Pikuliak, tefan Grivalsk , Martin Kon pka, Miroslav Bl t k, Martin Tamajka, Viktor Bachrat , Mari n imko, Pavol Bal ik, Michal Trnka, Filip Uhl rik
我们在本文中介绍了一种名为 SlovakBERT 的新斯洛伐克掩码语言模型。这是第一个在相当大的语料库上训练的基于斯洛伐克语的仅基于转换器的模型。我们在几个 NLP 任务上评估模型并获得最先进的结果。

Multilingual AMR Parsing with Noisy Knowledge Distillation
Authors Deng Cai, Xin Li, Jackie Chun Sing Ho, Lidong Bing, Wai Lam
我们从知识蒸馏的角度研究多语言 AMR 解析，目的是通过使用现有的英语解析器作为其老师来学习和改进多语言 AMR 解析器。我们将探索限制在严格的多语言环境中，只有一种模型可以解析包括英语在内的所有不同语言。我们发现嘈杂的输入和精确的输出是成功蒸馏的关键。加上大量的预训练，我们获得了一个 AMR 解析器，其性能超过了之前在四种不同外语（包括德语、西班牙语、意大利语和中文）上发表的所有结果，大幅提高了 18.8 个文本sc 中文匹配点和平均 11.3 个文本sc匹配点。

Focused Contrastive Training for Test-based C