点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
该报告将介绍两篇发表在ACL 2021主会的论文。第一篇论文提出了第一个评价故事生成评价指标的评测基准。该基准基于人工标注和自动构造的数据集对现有的评价指标进行了综合测试。实验发现现有的故事生成评价指标仍然与人工评价相关性较弱,难以识别篇章级别的不连贯错误,缺少因果和时序方面的推理知识,缺乏鲁棒性和泛化性。该基准的数据集、评测脚本和评价工具包已发布https://github.com/thu-coai/OpenMEVA。第二篇论文针对如何提高长文本生成的连贯性的问题,提出在生成模型中引入句子级别和篇章级别的前缀表示,并分别用句子相似度预测和句子位置判别的预训练任务学习相应的表示。实验结果表明该模型能生成更连贯的文本,且具有更好的语言建模能力,模型已发布在 https://github.com/thu-coai/HINT。
本期AI TIME PhD直播间,我们邀请到了清华大学计算机科学与技术系博士生关健带来分享——《开放端故事生成评价指标的评测基准及长文本生成的连贯性建模》
关健:清华大学计算机科学与技术系博士生,师从黄民烈副教授。研究方向为长文本建模,曾以第一作者身份在ACL、AAAI、EMNLP等国际知名会议发表多篇论文。
OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics
第一篇论文提出了一个benchmark,用于评价开放端故事生成。
现有的语言生成模型生成语句的质量还远远落后于人类,其中很重要的阻碍因素是缺少有效的评价指标。现在的评估评价指标的范式是,让机器生成一些语料然后由人进行打分,比如说从0分到5分,再让指标再进行打分,然后计算指标打分和人类打分的相关性,相关性越高就表示指标越好。但是现在缺少一个标准的benchmark数据集用于指标的评价。
除此之外,人工标注数据集通常也含有数据分布的bias,或是固有的标注的bias。另外仅用相关性得分来评价一个指标的好坏,非常不利于指标的发展。因为一个得分0.2和一个得分0.8,我们根本是不清楚他们能捕捉或者不能捕捉哪方面的错误。所以说我们需要一个非常全面的细粒度的benchmark来对现有的评价指标进行评测。
在这篇文章中我们提出了一个benckmark叫做OpenMEVA,专门用来评价开放端故事生成。这个benckmark包括两个数据集,一个叫做MANS,它是一个人工标注的数据集,另外一个数据集是自动构造的,叫做AUTOS。人工标注数据集可以来衡量现有的指标和人工评价的相关性,也可以来评价指标的泛化性,即当从不同的模型中生成文本,或者从不同的数据集生成文本,指标的泛化性表现怎么样,是不是都能给出一个很好的评价结果。另外一方面,AUTOS在不同方面的语义上构造了不同的数据,来评价指标判别不同方面连贯性的能力,以及评价指标在面对不同方面的扰动时的鲁棒性。
我们发现现在的最好的一些指标仍