gggggg159753asda-CSDN博客

原创 Prompt-Engineering and Transformer-based Question Generation and Evaluation

问题生成是一项必不可少的 NLP 任务。其主要应用之一是它可以用作学习工具。主动召回是通过回答问题来检索信息的做法。根据心理科学协会 (APS)，主动回忆是一种高效用学习技术，因为学习者在主动回忆研究后表现出更高的学术表现 [DRM+13]。可以生成问题的模型将帮助学生使用主动召回来审查材料并减少创建问题所需的时间。根据 CBE 生命科学教育的研究，使用主动学习策略的学生得分分别比没有在考试 1 和 2 上使用主动学习策略的学生高 5.5% 和 10.2% [WSRF21]。

2023-11-09 15:17:20 120

原创 Dense Text Retrieval based on Pretrained Language Models: A Survey 上

文本检索旨在查找相关信息资源(例如，文件或段落)以响应用户查询。它是指查询和资源以自然语言文本的形式存在的特定信息检索场景。作为克服信息过载的关键技术之一，文本检索系统已经被广泛地应用于许多下游应用，包括问答[1]、[2]、对话系统[3]、[4]、实体链接[5]、[6]和Web搜索[7]等。本部分首先介绍了稠密文本检索的背景，然后讨论了设计稠密检索模型的关键问题。

2023-11-08 21:32:36 455

原创 Semantic Models for the First-stage Retrieval: A Comprehensive Review 2021

大规模查询文档检索是搜索系统中的一个关键问题，例如 Web 搜索引擎，其目的是在给定用户查询的情况下从大型文档存储库中返回一组相关文档。为了平衡搜索效率和有效性，现代搜索系统在实践中通常采用多阶段排序管道，如图1所示。第一阶段检索旨在通过一些专门设计的索引结构辅助的更便宜的排名模型从大型存储库中返回初始候选文档集。之后，几个重新排序阶段采用更复杂和有效的排名模型来修剪和改进前一阶段输出的排序列表。

2023-11-08 15:04:49 95

原创 A Survey on Retrieval-Augmented Text Generation. 2022

检索增强文本生成作为一种新的文本生成范式，融合了新兴的深度学习技术和传统的检索技术，在许多NLP任务中取得了最先进的(SOTA)性能，并引起了计算语言学界的关注(Weston等人，2018;与基于生成的模型相比，这种新范式具有显著的优势:1)知识不需要隐式存储在模型参数中，而是以即插即用的方式显式获取，具有很大的可扩展性;2)该范式不是从零开始生成文本，而是从一些检索到的人类书面参考中生成文本，这可能会减轻文本生成的难度。

2023-11-07 14:59:55 152

原创 Improving Passage Retrieval with Zero-Shot Question Generation

我们提出了一种简单有效的重新排序方法来提高开放式问答中的段落检索。重新排序器使用零样本问题生成模型对检索到的段落进行重新排序，该模型使用预训练的语言模型来计算以检索到的段落为条件的输入问题的概率。这种方法可以应用于任何检索方法（例如基于神经或关键字）之上，不需要任何特定领域的训练（因此有望更好地推广到数据分布变化），并在查询和段落之间提供丰富的交叉注意力（即它必须解释问题中的每个标记）。

2023-11-06 22:15:19 202

原创 Investigating Educational and Noneducational Answer Selection for Educational Question Generation

由于训练数据不足，教育自动问题生成 (AQG) 往往无法在教育应用中充分发挥其潜力。出于这个原因，目前的研究依赖于非教育问答数据集来进行系统训练和评估。然而，非教育训练数据可能包含与教育数据不同的语言模式。因此，出现了在非教育数据集上训练的模型是否很好地转移到教育 AQG 任务的研究问题。在这项工作中，我们研究了答案选择的 AQG 子任务，旨在提取要生成的问题的有意义的答案。我们在两个广泛使用的非教育数据集上训练和评估六个现代和完善的基于 BERT 的机器学习模型架构。

2023-11-06 18:16:17 66

原创 Simplifying Paragraph-Level Question Generation via Transformer Language Models. 2021

问题生成 (QG) [14]，虽然不如其兄弟任务问答 (QA) 突出，但在 NLP 中仍然是一项相关任务。提出有意义问题的能力为人工智能 (AI) 模型 [10] 中的理解提供了证据。这使得 QG 的任务在 AI 的更大图景中很重要。虽然所有这些技术都是稳健的，但它们都使用了复杂的模型、额外的特征和额外的机制，这使得它们更难训练和昂贵重现。在这项工作中，我们表明基于转换器的微调技术可用于仅使用单个预训练语言模型创建稳健的问题生成系统，而无需使用额外的机制、答案元数据和广泛的特征。

2023-11-06 15:38:10 54

原创 Self-Attention Architectures for Answer-Agnostic Neural Question 2019 EMNLP

基于自注意力的神经架构，例如 Transformers，最近引起了研究界的兴趣，并在多项任务中获得了对现有技术的显着改进。我们探索了 Transformer 如何适应神经问题生成的任务，而无需约束模型专注于特定的答案段落。我们研究了几种策略处理词汇外单词的效果，例如复制机制、占位符和上下文词嵌入我们报告了根据自动指标 (BLEU, ROUGE) 以及系统输出的定性人工评估在 SQuAD 数据集上与最先进的改进transformer中的应用：给定一个文本片段，该模型称为生成有关它的相关和有意义的问题。

2023-11-06 15:11:20 44

原创 Question Generation by Transformers 2019

文献中报告的现有问题生成系统涉及人工生成的模板，包括完形填空类型 (Hermann et al. 2015)、基于规则的 (Mitkov and Ha 2003;Russ et al. 2010) 或半自动问题 ( ́Alvaro and ́Alvaro 2010;另一方面，最近开发的机器学习模型使用循环神经网络 (RNN) 来执行序列转导，即序列到序列 (Du, Shao and Cardie 2017;

2023-11-05 22:44:35 46

原创 Question Generation for Question Answering 2017 EMNLP

为了实现第一个目标，我们建议从 Community-QA (CQA) 网站获取大规模的高质量训练数据。使用 CQA 网站进行训练数据收集的动机是，此类网站（例如 YahooAnswers、Quora 等）包含真实用户生成的大规模 QA 对，这些问题反映了最常见的用户意图，因此有助于搜索、QA 和聊天机器人场景。构建数据集的原因，选择该网站的原因。

2023-11-05 22:23:41 46

原创 Aspect-based Question Generation ICLR 2018

提供基于检索的问题生成方法2017在本文中，我们认为基于方面的情感分析问题生成也很重要也就是说，除了给定的句子或段落之外，指定文本中包含的相关方面也很有用。主要原因是句子或段落通常涉及可以生成问题的多个方面或概念，仅任意选择一个或混合它们可能使用有限，因为我们发现在实际应用中，问题需要针对与当前对话相关的一些方面。人们几乎永远不会在对话中提出随机问题。在不了解有关什么的情况下生成问题不是很有用。为了解决这样一个特定于方面的问题，我们提出了一种新颖的神经网络，它可以生成基于方面的情感分析问题。

2023-11-05 21:23:07 45

原创 Question Generation from Paragraphs: A Tale of Two Hierarchical Models 2019

从段落自动生成问题是一个重要且具有挑战性的问题，特别是由于段落的上下文很长。在本文中，我们提出并研究了两个层次模型，用于从段落生成问题的任务。具体来说，我们提出了(a) 一种新颖的分层 BiLSTM 模型，具有选择性注意，(b) 一种新颖的分层 Transformer 架构，它们都学习段落的层次表示。我们根据其组成句子对段落进行建模，并根据其组成词对句子进行建模。

2023-11-05 18:01:56 51

原创 A Review on Question Generation from Natural Language Text

基于模板的方法分为三类最近，我们见证了 QG 领域深度神经模型的蓬勃发展。神经 QG 模型提供了一个完全数据驱动的端到端可训练框架，其中内容选择和问题构建可以联合优化。与之前的基于规则的方法相比，神经 QG 模型在问题流畅性和多样性方面都显示出很大的优势。不失一般性，大多数神经方法将 QG 任务制定为序列到序列 (Seq2Seq) 问题，并设计不同类型的编码器和解码器以提高生成问题的质量。

2023-11-05 00:26:56 64

原创 A Systematic Review of Automatic Question Generation for Educational Purposes

研究最多的领域是语言学习（20 项研究），然后是数学和医学（每四项研究）。请注意，对于这三个领域专业组织（例如英语测试为外语 (TOEFL)、国际英语语言测试系统 (IELTS) 和国际语言交流 (TOEIC) 英语测试 (TOEIC) 开发的大型标准化测试，用于数学和医学董事会考试）。这些测试需要持续供应新问题。我们相信这是为这些领域生成问题感兴趣的原因。我们还根据属于其他领域的问题，将语言学习领域的兴趣归因于生成语言问题的难易程度。

2023-11-04 15:49:50 54