AAAI(人工智能促进协会年会)是人工智能领域的顶级国际会议之一。今年的 AAAI 2020 是第 34 届,于 2 月 7 日至 12 日在美国纽约举行。今年,第 3 次参会的腾讯 AI Lab 共有 31 篇论文入选,涵盖自然语言处理、计算机视觉、机器学习、机器人等领域。
今天我们要解读的入选论文是 CASE: Context-Aware Semantic Expansion。这篇论文由腾讯 AI Lab 主导,与南洋理工大学、武汉大学合作完成。文章提出了一项新任务:上下文敏感的语义扩展(CASE);作者也针对这个新任务提出了对应的解决方案。
论文标题:CASE: Context-Aware Semantic Expansion
论文来源:AAAI 2020
论文链接:http://arxiv.org/abs/1912.13194
论文介绍
在搜索引擎查询建议、计算机辅助写作、词义消岐等诸多应用和技术中,经常需要处理如下问题:将一句话中的某个词扩展为符合上下文语境的同类词。例如,对于“大麦草富含氨基酸等营养”这句话,将“氨基酸”这个词扩展为“维生素”、“叶绿素”等大麦草含有的其它营养物质。
在这篇论文中,作者将这个问题定义为“上下文敏感的语义扩展”(Context-Aware Semantic Expansion,简称为 CASE)。文献中与此相近的词汇替换(Lexical Substitution)和集合扩展(Set Expansion)技术由于问题定义和数据收集上的不同,无法直接用于这个问题。
使用监督式深度神经网络来解决 CASE 问题时,通常需要大规模的标注数据。然而,人工标注的数据由于费时费钱,很难批量收集。因此,使用自然标注的大规模数据是一种更为现实的方案。
事实上,在自然语料中,同类的词常常会出现在同样的上下文中。比如营养品广告中可能会出现“大麦草富含维生素、抗氧化剂、酶、矿物质、氨基酸、叶绿素等营养”这句话。
一般而言,这种句子通常以 Hearst 模式出现,比如“等 h”,“
和其它 h”。这里用 h 代表上位词(hypernym),
代表下位词(hyponyms)。在大规模的自然语料(例如网页、新闻、百科)中,使用人工编写的 Hearst 正则表达式,可以抽取大量满足 Hearst 模式的句子,并且分离出其中的上位词和下位词集合。
假设上述“大麦草富含…”这句话被识别,经上述处理后,这句话对应一条自然标注的句子,形式如下:
上下文 C:“大麦草富含 [?] 等营养”;
下位词集合 T:{维生素、抗氧化剂、酶、矿物质、氨基酸、叶绿素}。
这里上下文 C 指带有一个占位符[?]的残缺句子,下位词集合 T 包括占位符位置出现的所有词语。作者从一个 Web 级别的数据集 WebIsA 抽取了约 180 万自然标注的句子后,用这些句子作为训练集,来训练 CASE 模型。
若将这些训练句子记为集合 T,CASE 模型需要优化如下目标:
在这个目标函数中,每条自然标注的句子 ⟨C,T⟩ 被视为 |T| 个训练样本,每个样本将一个下位词 s∈T 当作种子词(seed),并在上下文 C 中预测其余的下位词 T\{s}。
给定种子词 s 和上下文 C,作者用上图所示的神经网络建模了任意下位词出现在扩展结果中的概率 P(.|s,C)。为了表述清楚,图中使用“大麦草富含…”这句话的英文翻译“Young barley grass is high in vitamin, antioxidant, enzyme, mineral, amino acid, chlorophyll, and other phyto-nutrients”举例。
给定种子词 s 和上下文 C,图中所示网络中的上下文编码器和种子词编码器将其分别编码为 s 和 C 两个向量。
因为种子词通常较短(包含一两个词汇),所以作者使用了简单的向量平均编码器来得到 s,即用 s 中所有词汇对应向量的平均来表示 s。对于上下文,作者考察了神经词袋(NBoW)、循环和卷积神经网络(RNN/CNN)、占位符位置敏感(Placeholder-Aware)等三类编码器。
将种子词 s 和上下文 C 编码为 s 和 C 两个向量后,这两个向量的拼接 x=s⊕C 被送入预测层,进行扩展。作者将扩展过程视为一个多标签分类问题。其中,每个潜在的扩展词是一个标签。当训练数据 T 足够大时,可以使用训练数据上出现的所有下位词 组成所有标签。
作者使用一个全连接层(带有偏置)加上一个 Softmax 层来实现预测层。为了解决 |L| 较大(约 18 万)的问题,作者使用了 Sampled Softmax 损失函数的一个多标签分类的实现。
此外,为了解决较长上下文的问题,作者还考察了 Seed-Oblivious(种子词不影响上下文注意力)和 Seed-Aware(种子词影响上下文注意力)两种引入注意力机制的方式。其中后者按 s 和 C 的相互作用方式,分为 Dot、Concat、Trans-Dot 三种实现。
实验
在实验中,作者考察了四个问题:
现有词汇替换方法是否适用于 CASE?
上下文对于语义扩展是否有影响?
Seed-Aware 注意力机制是否优于 Seed-Oblivious?
上下文中的额外上位词(如“营养”)是否在实验中引入偏差?
▲ 表1. CASE方法和词汇替换方法的对比
▲ 表2. 不同上下文编码器的对比
▲ 表3. 不同注意力得分函数的对比
从表 1 中可以看出,作者提出的 CASE 网络在使用 NBoW 编码器的情况下,在抽取的数据上性能优于词汇替换方法。
表 2 中可以看出,最简单的 NBoW 编码器具有最好的效果,且“No Encoder” 情形(移除上下文编码器)的较差效果说明上下文信息在 CASE 任务中具有重要影响。
在表 3 中可以看出,简单的 Seed-Oblivious 注意力方法 Attn 总是可以带来提升;在三种 Seed-Aware 方法中,Trans-Dot 方法最优,且优于 Attn 方法。最后,作者用额外的实验证明,上下文中的上位词对实验结果的影响很小。
总结
这项研究做出了以下贡献:定义了 CASE 问题;给出了从现有文本数据中自动获得大批标注数据的方法,并得到了包含 180 万句子的数据集;提出一个网络架构,设计了不同的上下文编码器和注意力实现方式;通过实验证明现有词汇替换方法在 CASE 上不适用,并证明在选择了合适的上下文编码器和注意力函数时,本文提出的方法具有良好的效果。
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。