©PaperWeekly 原创 · 作者 | 王馨月
单位 | 四川大学
研究方向 | 自然语言处理
缩略词
1.1 SimCLAD
论文标题:
SimCLAD: A Simple Framework for Contrastive Learning of Acronym Disambiguation
论文链接:
https://arxiv.org/abs/2111.14306
这篇文章的作者针对缩略词消歧问题,提出了一个简单的缩略词消歧对比学习框架(Simple framework for Contrastive Learning of Acronym Disambiguation , SimCLAD)。具体来说是一种持续对比预训练方法,通过学习真实含义和歧义短语之间的短语级对比分布来增强预训练模型的泛化能力。
上图是首字母消歧的示例,目标是预测字典中长形式缩写词的正确含义。一个好的预测不仅应该理解上下文的含 义,还应该区分歧义短语的含义。
上图是本文提出框架的示意图。框架包含两个域预训练模型(学生和教师),它们使用相同的参数进行初始化。在预训练阶段,教师的参数被冻结,为学生模型提供编码表示。此外,教师支持学生模型的 MLM 格式良好的原始目标(即 MLM 与 NSP)。
作者有意 mask 了原始的短形式首字母缩写词()以在教师模型中区分模糊的长形式缩略词(),其中符号 + 和 - 是正样本和负样本。在学生模型的预训练过程中采用了对比损失。具体来说,就是通过将学生模型的输入句子中的缩写词(即 CL)与教师产生的“正确含义”进行屏蔽而不屏蔽相应的短语来获得的。为了获得字典中“reference”的表示(虚线框),我们通过对标记的嵌入进行平均来执行短语平均方法(即对比学习)。
同时,我们让正负样本的表示距离保持距离,以增强模型区分混淆样本的能力。其中学生学习的 masked 缩略词更接近教师产生的真实含义(实线箭头),而远离字典中其他令人困惑的短语(虚线箭头)。
短语级对比预训练 loss 计算如下:
其中 是指示函数,当 是 masked 缩略词并且是相应长格式 的缩写时 。
在微调的过程中,作者连接输入句子的最终隐藏状态 和可能的短语表示 以获得两个分类和对比学习的特征 ,在预训练模型上添加一个非线性投影层,用于获得表示。最后,以多任务的方式进行微调,并对两个分类损失和对比损失进行加权平均:
实验结果如下图,可以看出,预训练模型的性能优于基于规则的方法,因为基于规则的方法由于泛化性差,很难从字典中混淆的首字母缩写词选项中挑选出正确的短语。SciBERT 在三个分数中都击败了 RoBERTa,这表明特定领域的预训练对于科学文档的理解具有重要意义。
科学领域预训练模型可以捕获令人困惑的首字母缩写词的深层表示。hdBERT 融合了不同类型的隐藏特征,以在二进制分类中获得更好的泛化,从而在此任务中表现良好。BERT-MT 的结果表明,确实有很多有用的技巧可以帮助模型增强鲁棒性的能力。
值得注意的是,所提出的方法在三个分数上都优于其他基线,这表明具有持续对比预训练的预训练模型可以进一步提高模型表示首字母缩略词的能力。集成方法可以进一步提高最终结果的多样性,从而在测试集中获得最佳性能。
1.2 PSG
论文标题:
PSG: Prompt-based Sequence Generation for Acronym Extraction
论文链接:
https://arxiv.org/abs/2111.14301
缩略词提取任务(如下图)是指从文档中找到首字母缩写词(短格式)及其含义(长格式),这对于科学文档理解任务很重要。针对这一任务,这篇文章的作者提出了一种基于 prompt 的序列生成(Prompt-based Sequence Generation, PSG)方法。具体来说,作者设计了一个模板,用于 prompting 提取的具有自回归的首字母缩略词文本。并设计位置提取算法用于提取生成答案的位置。在低资源环境中提取越南语和波斯语的缩略词的结果表明,本文所提出的方法优于目前的 SOTA 方法。
作者将首字母缩略词提取任务视为序列生成问题。给定文本的一系列 token ,任务旨在从原始文本中找到相应的位置。标签表示短形式 (即首字母缩写词)和长形式 (即短语),则任务为:
上图是模型架构示意图。作者使用 MT5 模型作为生成序列的 backbone,首先使用手动设计的 prompt 输入文本,使用 MT5 tokenizer 进行标记,然后通过自注意机制使用 encoder 对输入进行编码。最后,输出由 decoder 通过自回归产生。输出包含未使用的 token ,是用于 prompt tuning 的占位符,从而进一步利用来自预训练模型的外部知识。
手动设计 prompt,以从预训练模型中提取相关知识进行序列生成,表示“首字母缩略词及其含义是:”。未使用的 token 被用作占位符来控制输出,形成模板进行提示调优,其中 <extra_id_1> 表示短格式的分隔符,<extra_id_2> 表示长格式的分隔符,<extra_id_3> 表示长格式和短格式的首字母缩写词之间的分隔符。<extra_id_4> 表示没有出现短格式的首字母缩写词,<extra_id_5> 表示没有出现长格式的首字母缩写词。
序列生成的 loss 自回归执行,如下,其中 是上下文编码, 是 decoder 生成的序列中的单词, 是模型参数。
提取位置作者使用了一种贪心遍历搜索的方法,采用从左到右的正则方法来寻找对应的位置边界。同时,需要通过检测边界边距来确保提取的输出没有重叠,使得提取的位置相互独立。算法如下:
作者在越南语和波斯语数据集上实验结果如下:
1.3 ADBCMM
论文标题:
ADBCMM: Acronym Disambiguation by Building Counterfactuals and Multi