![](https://img-blog.csdnimg.cn/adcf9b9f653044039b9c187893cf8ee4.png)
- 随机从文本中抽取noun phrases或者named entity作为答案
- 将答案部分mask掉,生成cloze question
- 利用无监督翻译,将cloze question转化为natural question
缺点:
- 直接利用原句生成问题,问题与原文有较大重叠,不利于后续QA模型的训练
![](https://img-blog.csdnimg.cn/a07db7de0dd4477aa5e561ccf08f07cf.png)
- 首先找到待提问的句子
- 把该句作为query,从corpus中查询与其相似的句子
- 基于相似的句子,利用模板生成问题
![](https://img-blog.csdnimg.cn/6733f35587f646bb8898c3d9fd33555b.png)
优点:
- 相较于前一篇文章,不再直接利用原句生成问题,而是优先寻找与其相似的句子,进而生成问题
缺点:
- 模板比较简单,不一定适用于所有句子结构,生成的问题可能会有语法错误
- 寻找到的相似句子在语义上未必与原句一致
优点:
- 引文和原文相比,表达内容相近,表达方式又有所区别,非常有利于提问
缺点:
- 引文和原文的内容未必完全相同,这种构造问题的方式会产生一些冗余信息(29%)
- 利用语法依存树来构造问题,经常出现语法错误、表达不通顺的情况(62%)
- Improving Unsupervised Question Answering via Summarization-Informed Question Generation, EMNLP 2021
![](https://img-blog.csdnimg.cn/09d080a1c859408a985ad12709ad7b25.png)
- 利用人工标注的summarization数据集来解决context和question间的重叠问题
- 丰富答案的类型,不只是entity
综述:
Unsupervised Question Answering: Challenges, Trends, and Outlook