标题
Evaluation methodologies in Automatic Question Generation 2013-2018
(水的不能再水的一篇文章。。。我之所以坚持看完,是因为tmdQG任务评估方法真的就一篇好的综述都没有啊!)
摘要
- 这篇综述基于37篇AQG论文综述了AQG中的评价方法。
- 研究表明,系统的发展与评估方法的发展具有不一致的步调。在研究中他们发现有各种内在外在的评估方法,不同的评估方法标准并不一致,这使得想要可靠的比较不同而系统的质量变得困难。
- 目前迫切需要一个统一评价框架来普遍的比较AQG和NLG系统的性能。
引言
-
本文的目的是分析作为NLG的一个代表子任务的自动问题生成(AQG)所使用的评价方法。自从问题生成功效任务评估挑战(QG-STEC)提出以来,AQG任务中还没有提出一个共同的评估框架。
-
近年来在ACL上发表的AQG论文乘增多趋势
-
AQG任务是从各种输入(如原始文本、数据库或语义表示)自动生成问题。一个特定的AQG任务可以由三个方面表征:输入、输出,最后是输入和输出之间的关系。可依次分为三种类别和用途。
第一类:Text2Text。输入输出都是文本,输出问题由输入文本回答,或者输出问题询问关于输入文本的澄清问题。
第二类:Kb2Text。输入是知识库结构化数据,比如三元组,输出是文本,输出问题由输入中的信息结构回答。
第三类:Mm2Text。输入是图像或者图像与文本或者是图像分割标注,输出是文本。输出问题由输入中所示的信息回答。
Mm2Text
- 针对不同类型任务的AQG系统的输入输出会有所不同,例如用于问答系统的AQG经常以文本作为输入,输出问题答案对。
相关工作
过去的研究显示以下几点:
- 自动评价比人类评价的方法更为流行,内在评价比外在评价流行(之后会提到)。同一期刊会议上发表的论文经常使用同一评价体系。
- 在QG-STEC中,定义了A和B两个任务。尽管两个任务共享相同的输出类型,但任务A采用一个段落和一个目标问题类型作为输入,而任务B采用单个句子和一个目标问题类型作为输入。两项任务都通过人工评估方法进行评估,基于5个标准:相关性、语法的正确性和流畅性、歧义性、问题类型和多样性。然而,在评估阶段达成的Inter Annotator Agreement(IAA)很低。Godwin和Piwek(2016)描述了改进任务B的IAA的尝试,其中作者定义了一个互动过程,在这个过程中注释者讨论了他们对评估中使用的标准的意见。虽然他们的方法提高了IAA,但他们的结果的再现性不能保证。(据我理解IAA应该是注释者赞同度)
AQG的评估方法
- 内在评价方法:内在评价方法是通过评价系统的输出来衡量系统的表现。常用的内部评价方法有人工评价和自动评价。为了评估生成的句子的质量,前者使用人的判断,而后者使用一种自动计算分数的算法,例如通过检查生成的句子和一组参考句子之间的相似性。
- 外部方法通过评估系统的输出以及完成其开发任务的能力相关的能力来衡量系统的性能。外部评估方法的一个例子是用于评估STOP系统(Reiter等,2003)。STOP生成“根据四页吸烟问卷的回应,量身定做的简短戒烟信”(第41页),目的是帮助人们戒烟。这个系统的评估是“招募了2553名吸烟者,向其中三分之一的人发送由STOP制作的信,向另外三分之二的人发送控制信,然后测量每组中有多少人成功戒烟”。在这种情况下,这个系统在现实世界中被评估,看它是否有期望的效果,帮助人们戒烟。结果表明,是否停止吸烟与戒烟信的内容没有相关性。
- 统计显示74,7%的论文使用了内在评价方法。10.1%的人同时使用了这两种方法。
- 在倾向于内在评价方法的论文中,45%使用人工评价,32%使用自动评价,23%同时使用人工和自动评价。
- 最常用的自动度量是BLEU,其次是METEOR。这些都是基于单词重叠的度量标准。
- AQG领域目前缺少一项旨在验证人类判断和自动度量之间相关性的研究。(这篇文章发表于2018年,据我所知2018年有篇文章就是研究自动评价指标与问题可回答性的关系,发表在EMNLP上,名字叫Towards a Better Metric for Evaluating Question Generation Systems,这篇文章的结论是自动评价指标与问题可回答性相关度很低)
- 在各种人工评估方法中,诱导质量判断是最常见的:人工注释员被要求根据问题的语法性和流畅性等标准来评估问题的质量。只有两篇论文使用了偏好判断方法,在这种方法中,人类注释者被要求评估问题之间的成对偏好,或者给出两个问题,一个是人类生成的,一个是自动生成的,评估哪一个是自动生成的(或者哪一个是人类生成的)。其中一篇论文还使用了其他的方法来引出质量判断。
- 外部评价:在外部方法的情况下,评价的目的是检查生成的句子是否完成了生成它们的任务。为了验证这一点,人类需要在真实的语境中使用这些句子。现在,人类以不同的方式使用相同的工具,同样地,他们也以不同的方式回答问题。因此,在真实的语言使用环境中,人们不会得到类似的结果。1.在没有使用人工裁判的论文中,问题生成(QG)系统作为问题回答(QA)系统的一个组成部分进行了测试。通过检查没有使用QG系统的QA系统与使用QG系统的QA系统的性能之间的差异来评估性能。这些论文的目的是通过创建更准确的问题/答案对来改进QA系统,以用于培训目的。2.由于游戏中的任务不同,其他的论文以不同的方式使用人工。我们可以找到这样的任务:回答生成的问题或在网页中使用生成的问题,然后回答关于这些问题的效用的调查。或者也可以:与聊天机器人进行对话,其中包括一个基于问题的对话,然后对对话进行评级。
结论
鉴于该领域出版物的数量不断增加,迫切需要一个测试发电系统性能的共同框架。