Unsupervised Question Answering by Cloze Translation 基于完形填空转换的无监督问答

最新推荐文章于 2024-07-02 10:51:28 发布

下了一周雨

最新推荐文章于 2024-07-02 10:51:28 发布

阅读量183

点赞数 1

文章标签：自然语言处理机器学习人工智能

本文链接：https://blog.csdn.net/qcmhzly/article/details/120312586

版权

Unsupervised Question Answering by Cloze Translation（基于完形填空转换的无监督问答）

Facebook research，开源，数据集为SQuAD

1.介绍

当前问题：抽取式问答需要大量训练数据，但对于一个新领域或者新的语种，收集训练集是需要大量人类和物力的。

目标：不需要使用监督QA，就能够在给定文档后生成准确的问题，利用生成的问题训练一个QA系统。

解决方法：

先用无监督方法生成文本内容(context)、问题(question)、答案(answer)三元组。
基于上述三元组自动合成抽取式问答的训练集。

三元组生成具体步骤：

从维基百科爬取文档，随机选取段落(context paragraphs)
从段落中随机地选出名词短语(nou phrases，NP)或命名实体（,NE）作为答案
将段落中的答案转为完形填空形式的cloze questions
再将cloze questions转为自然语言问题

2.无监督EQA

抽取式问答中问题为q，相关的段落文本内容c，问题对应的答案a = ( b , e )

本文的方案由2阶段组成：
(1设计一个生成模型p ( q , a , c ) ，不使用监督QA。
(2)使用p作为生成器训练一个判别模型pr(a∣q,c)，生成器p(q,a,c)=p©p(a∣c)p(q∣a,c)会以一个逆向的形式产生数据：先通过p ( c ) 采样一段文本，再通过 p(a∣c)计算文本范围内的答案，最后通过p(q∣a,c)得到该答案和文本所对应的问题。

2.1文本和答案生成

通过p(a∣c)生成答案。

p(a∣c)可选择：名词短语（Noun Phrases、命名实体（Named Entities）

2.2问题生成

完形填空生成：q′=cloze(a,c)

（1）可选用答案周围的句子

（2）可通过限制答案周围的从句（subclauses）以进一步降低长度

问题转换：p(q∣q′)
（1）Identity Mapping(恒等映射)；

（2）Noisy Clozes(噪声化的完形填空)：

将完形填空与自然问题间的差别当做一种干扰形式。

（3）Rule-Based(基于规则)：句首加wh*,句尾加？，并进行适当地词序调换

**（4）Seq2Seq：**无监督神经机器翻译(UNMT)，分别建立完形填空语料库和自然问题语料库，两者不是平行语料，见2.4。

2.3 问答

通过生成模型得到抽取式问答的答案有两种思路:

（1）训练一个独立的QA系统：训练集来自于本文生成器的生成。

（2）使用后验概率：什么样的问题最可能生成这样的答案

2.4无监督完形填空转换

完型语料库

自然问题语料库

**wh’‘的启发式规则：**将每个答案类型映射到最合适的wh’'单词。

在目标问题前面加上答案类型标记，将其映射到训练时的wh*单词。

3 实验结果

3.2消融研究和分析

1.问答（2.3）：训练后的QA模型优于最大后验概率

2.答案的先验知识（2.1）：命名实体(NEs)比名词短语(NPs)更有效，因为NE 少，降低了候选答案的搜索空间

3.句子长度：降低完形填空问题的长度有助于translation操作生成更简单且更精确的问题。

4.QA模型选取（2.3.1）：BERT-base比BiDAF+SA更优秀

5.基于规则生成数据的影响（2.2.3）：看不懂

3.3错误分析

QA模型虽然使用的训练集中只有NE类型的答案，但是预测答案时并不总是选用命名实体作为答案。

原因:预训练的BERT已经捕获一定的语言学特征，所以能够归纳出NEs在句子中所起的语义作用，而不是简单地模仿NER系统。

对于不同的wh*,系统的处理能力不同，其中when最好，what最差

3.5小样本问答

在拥有少量带标签数据的情况下，表现优于其他方案。

5.总结及比较

优点：无监督、无需三元组数据

缺点：需借助NER系统和用于提取从句的解析器，用到特定语言（英语）的wh*启发式规则

具有高局限性

下了一周雨

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Unsupervised Question Answering by Cloze Translation 基于完形填空转换的无监督问答

Unsupervised Question Answering by Cloze Translation（基于完形填空转换的无监督问答）Facebook research，开源，数据集为SQuAD1.介绍当前问题：抽取式问答需要大量训练数据，但对于一个新领域或者新的语种，收集训练集是需要大量人类和物力的。目标：不需要使用监督QA，就能够在给定文档后生成准确的问题，利用生成的问题训练一个QA系统。解决方法：先用无监督方法生成文本内容(context)、问题(question)、答案(answer
复制链接

扫一扫