近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在EM(精准匹配率)和F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到87.147和89.474。其中EM指标高出人类平均水平0.3个百分点,F1则是略微超过人类平均水平。同时,科大讯飞所提出的单模型效果也是目前榜单中最好的一个。
能取得这样的成绩,得益于科大讯飞团队此次的参赛模型“BERT + DAE + AoA”。为什么这个模型能取得这样高的精度?为寻找答案,AI前线邀请到科大讯飞AI研究院资深级研究员、研究主管崔一鸣,来详细了解科大讯飞在比赛中刷新纪录的秘密。

EM、F1两项指标首次全面超越人类平均水平
SQuAD 2.0是认知智能行业内公认的机器阅读理解领域顶级水平测试,通过吸收来自维基百科的大量数据,构建了一个包含十多万问题的大规模机器阅读理解数据集。
SQuAD 2.0阅读理解模型的评估标准包括两个,即精确匹配(Exact Match)和模糊匹配(F1-score),这是对参赛者提交的系统模型在阅读完数据集中的一个篇章内容之后,回答若干个基于文章内容的问题,然后与人工标注的答案进行比对之后得出的结果。
此前,这两个指标中的单一指标均不断被打破,评价指标超过人类平均水平甚至是两个指标都超过人类平均水平尚属首次,所以有人评价道,此次突破还是值得更多人关注的。
与其他机器阅读理解任务不同&#
科大讯飞在SQuAD 2.0挑战赛中,其BERT + DAE + AoA模型在EM和F1指标上超越人类平均水平,实现机器阅读理解的新突破。该模型融合了BERT、DAE和AoA技术,但仍存在改进空间。科大讯飞团队正探索阅读理解与问题拒答技术的结合,已在智能车载交互系统中应用。
最低0.47元/天 解锁文章
1276

被折叠的 条评论
为什么被折叠?



