【AI视野·今日NLP 自然语言处理论文速览 第二十五期】Fri, 1 Oct 2021

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 1 Oct 2021
Totally 36 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Semi-Supervised Text Classification via Self-Pretraining
Authors Payam Karisani, Negin Karisani
我们提出了一种称为自我预训练的神经半监督学习模型。我们的模型受到经典自训练算法的启发。然而,与自我训练相反,自我预训练是无阈值的,它可以潜在地更新对先前标记文档的信念,并且可以应对语义漂移问题。自预训练是迭代的,由两个分类器组成。在每次迭代中,一个分类器随机抽取一组未标记的文档并标记它们。该集合用于初始化第二个分类器,由标记文档集合进一步训练。算法进行下一次迭代,分类器的角色互换。为了改善迭代中的信息流并处理语义漂移问题,Self Pretraining 采用了迭代蒸馏过程,在迭代中转移假设,利用两阶段训练模型,使用有效的学习率计划,并采用了伪标签转换启发式。我们已经在三个公开可用的社交媒体数据集中评估了我们的模型。我们的实验表明,自我预训练在多个设置中优于现有的最先进的半监督分类器。

Multi-granular Legal Topic Classification on Greek Legislation
Authors Christos Papaloukas, Ilias Chalkidis, Konstantinos Athinaios, Despina Athanasia Pantazi, Manolis Koubarakis
在这项工作中,我们研究了对用希腊语书写的法律文本进行分类的任务。我们引入并公开了一个基于希腊立法的新数据集,其中包含超过 47,000 个官方分类的希腊立法资源。我们对这个数据集进行了实验,并评估了一系列先进的方法和分类器,从传统的机器学习和基于 RNN 的方法到最先进的基于 Transformer 的方法。我们表明,具有特定领域词嵌入的循环架构提供了改进的整体性能,同时甚至与基于转换器的模型相比也具有竞争力。最后,我们展示了基于尖端多语言和单语转换器的模型在分类器排名的顶部争吵,使我们质疑训练单语迁移学习模型的必要性作为经验法则。

MatSciBERT: A Materials Domain Language Model for Text Mining and Information Extraction
Authors Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam
材料领域的大量知识被生成并存储为发表在同行评审的科学文献中的文本。自然语言处理的最新发展,例如来自转换器 BERT 模型的双向编码器表示,为从这些文本中提取信息提供了有前途的工具。然而,在材料领域直接应用这些模型可能会产生次优结果,因为模型本身可能没有接受过特定于该领域的符号和术语的训练。在这里,我们提出了一个材料感知语言模型,即 MatSciBERT,它是在材料领域发表的大量科学文献上训练的。我们进一步评估了 MatSciBERT 在三个下游任务上的性能,即抽象分类、命名实体识别和不同材料数据集的关系提取。我们表明 MatSciBERT 在所有任务上都优于 SciBERT,后者是一种在科学语料库上训练的语言模型。此外,我们讨论了 MatSciBERT 在材料领域提取信息的一些应用,这反过来又有助于材料发现或优化。

Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks
Authors Yichen Jiang, Mohit Bansal
系统组合性是人类语言的基本机制,允许重组已知部分以创建新的表达方式。然而,现有的神经模型已被证明在学习符号结构方面缺乏这种基本能力。由于 Transformer 模型在 SCAN 组合性挑战 Lake and Baroni, 2018 上的失败,需要将命令解析为动作,我们提出了两个辅助序列预测任务来跟踪函数和参数语义的进展,作为额外的训练监督。这些自动生成的序列更能代表输入数据的底层组合符号结构。在推理过程中,模型在每一步联合预测辅助序列中的下一个动作和下一个标记。在 SCAN 数据集上的实验表明,我们的方法鼓励 Transformer 理解命令的组成结构,将其在多个具有挑战性的分割上的准确性从 10 提高到 100。只有 418 5 个训练实例,我们的方法在 MCD1 分割上仍然达到了 97.8 的准确率。因此,我们认为,在给予最少但适当的指导的情况下,可以在 Transformer 中诱导组合性。我们还表明,使用较少语境化的向量作为注意力查询可以获得更好的结果,为实现系统组合性的架构选择提供了见解。最后,我们在 GroundedSCAN 任务 Ruis et al., 2020 上展示了积极的泛化结果。

SlovakBERT: Slovak Masked Language Model
Authors Mat Pikuliak, tefan Grivalsk , Martin Kon pka, Miroslav Bl t k, Martin Tamajka, Viktor Bachrat , Mari n imko, Pavol Bal ik, Michal Trnka, Filip Uhl rik
我们在本文中介绍了一种名为 SlovakBERT 的新斯洛伐克掩码语言模型。这是第一个在相当大的语料库上训练的基于斯洛伐克语的仅基于转换器的模型。我们在几个 NLP 任务上评估模型并获得最先进的结果。

Multilingual AMR Parsing with Noisy Knowledge Distillation
Authors Deng Cai, Xin Li, Jackie Chun Sing Ho, Lidong Bing, Wai Lam
我们从知识蒸馏的角度研究多语言 AMR 解析,目的是通过使用现有的英语解析器作为其老师来学习和改进多语言 AMR 解析器。我们将探索限制在严格的多语言环境中,只有一种模型可以解析包括英语在内的所有不同语言。我们发现嘈杂的输入和精确的输出是成功蒸馏的关键。加上大量的预训练,我们获得了一个 AMR 解析器,其性能超过了之前在四种不同外语(包括德语、西班牙语、意大利语和中文)上发表的所有结果,大幅提高了 18.8 个文本sc 中文匹配点和平均 11.3 个文本sc匹配点。

Focused Contrastive Training for Test-based C
[语法讲义].朱德熙.扫描版.pdf 《现代汉语词类研究》.郭锐.扫描版.pdf 《现代汉语语法研究教程》.陆俭明.扫描版.pdf 一种基于句子分割的文法自动推导算法.pdf 一种细粒度的评价对象抽取及倾向性判别方法.pdf 中文功能组块分析及应用研究.pdf 中文句法语义分析及其联合学习机制研究.pdf 人机对话系统中若干关键问题研究.pdf 从树库的实践看句本位和中心词分析法的生命力.pdf 关于CKY句法分析效率的实验性研究.pdf 关联文法语法分析的并行处理研究.pdf 口语对话系统中的一种稳健语言理解算法.pdf 句法分析树标注集及事件分析.pdf 基于Chart算法的句法分析系统的设计与实现.pdf 基于一种新的合成核的中文实体关系自动抽取.pdf 基于中心驱动模型的宾州中文树库(CTB)句法分析.pdf 基于中文的句法分析系统的研究与实现.pdf 基于二元组合文法的语义知识库构建.pdf 基于动作建模的中文依存句法分析.pdf 基于句法分析与依存分析的评价对象抽取.pdf 基于层次模型的中文句法分析.pdf 基于树库和机器学习的汉语依存句法分析.pdf 基于树库的汉语依存句法分析.pdf 基于概率上下文无关语法的句法分析研究与实现.pdf 基于统计的自然语言处理.pdf 基于自然语言理解的自动应答技术及应用研究.pdf 基于语义的汉语句法分析系统的研究与实现.pdf 基于语料库学习的多主题自动问答系统研究.pdf 基于语法功能匹配的句法分析算法.pdf 机器翻译原理与方法讲义(05)基于句法的统计机器翻译方法.pdf 汉语句子的组块分析体系.pdf 汉语句法分析方法研究.pdf 汉语多重关系复句的关系层次分析.pdf 汉语并列结构的自动识别.pdf 汉语概率型上下文无关语法的自动推导.pdf 统计句法分析建模中基于信息论的特征类型分析.pdf 自然语言处理-句法剖析论文.pdf 自然语言理解的语义分析在产品设计中的应用.pdf 融合丰富语言知识的汉语统计句法分析.pdf 限定领域的基本陈述句句法分析.pdf 面向中文问答系统的问句句法分析.pdf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值