来源:AAAI2019
资源:https://arxiv.org/pdf/1804.08058.pdf
MOTIVATION
- CQA任务存在语义鸿沟现象,即一个和问题有很多重叠单词的答案可能并不是这个问题的相关答案。
- 标签不均衡问题:相关答案的整体数量通常比不相关答案的数量少。而且为了更好地利用标注数据以及给QA对提供更多训练,之前的研究大多是对于当前问题,随机采样答案作为这个问题的负样本。这会扩大标签不均衡的问题。
CONTRIBUTIONS
- 考虑多个粒度级别的匹配(multi-scale matching)扩展当前用于CQA选择任务的matching-aggregating框架,可以明确地考虑单词和不同粒度的n-grams之间的关系。
- 使用对抗训练网络减轻标签不平衡的问题。通过生成模型交互式地采样负样本的子集,以欺骗分类模型,生成更好的负样本。这种交替优化生成模型和分类模型的策略能够显著提高CQA任务的性能。
MODEL
multi-scale matching
文章遵循matching-aggregating框架,除了word-to-word的比较外,也使用单词和不同长度的ngrams的比较结果(在多个粒度上的比较)。通过考虑word-to-ngrams比较结果,模型可以捕捉不同粒度的语义信息,并且利用它帮助分类。为了获得word-to-ngrams比较结果,文章首先用了CNN来为每个句子学习层级表示。低层的神经元学习局部语义信息,高层次的神经元能够在大文本上压缩信息。例如下图中的Q0是表示的是词向量,Q1表示的是5-gram的语义信息(如果感受野为5)。
用来进行答案选择的对抗网络
作者提出的对抗训练框架采用一个multi-scale matching生成高质量的负样本,用另一个multi-scale matching判别给定的样本是负样本还是正样本。
目标函数为:
生成器和判别器模型分别为:
生成器试图拟合底层的真实数据分布,并在此基础上,从整个答案集中随机抽取一个答案,以欺骗鉴别器。我们利用multi-scale matching模型的打分功能对每一个候选答案进行打分,具有高相关性分数的答案将被高概率采样。也就是说我们倾向于选择与Q更相关的负样本作为答案。
我们需要计算每一个候选答案与问题的得分函数,但是因为候选答案有很多,计算量过大。于是我们采取的办法是控制候选答案来源,候选答案来自于两个方面:①对于问题Q,已经标记为负样本的答案②来自其他与问题Q不相同的问题的答案。