SOTA,State Of The Art,是一个AI界家喻户晓的说法。
这个词意味着某个模型在某些具体任务中达到了“目前最佳水平”。许多AI研究都在追逐最先进的 (SOTA) 数字,而且有理由相信,未来还会有更多的论文以此为出发点。
这个领域的大部分从业者对这种风潮已习以为常,但在AI学者Kenneth Ward Church看来,对SOTA的一味推崇并不全是“奖赏”,也是有相应代价的。
在他与Valia Kordoni合著的文章Emerging Trends: SOTA-Chasing中,他们详细地阐述了追逐SOTA可能造成的三种负面效应:
1.排行榜强调竞争,这分散了人们对该领域更重要机遇的注意力;
2.对SOTA的追逐阻碍了语言学、词典编纂、心理学等领域的研究人员进行跨学科合作;
3.一些声称SOTA的成果可能会让业界产生不切实际的期望,这可能会导致又一个人工智能的寒冬。
“数据实战派”将其中的重点论述部分整理如下:
一、激励和合作:排行榜的“双面效应”
你追求的度量是什么,那么你得到的就会是什么,这是老生常谈了。
排行榜强调的是赢家和输家。如果你用谷歌搜索"meme: mine is bigger than yours",你会发现一堆粗鲁的、幼稚的、甚至是危险的图片。
TREC(文本检索会议)强调合作竞争,而不只是竞争。Voorhees在SIGIR-2020的主题演讲中,以及在ACL-2021 benchmarking研讨会上的受邀演讲中指出:
l 竞争可能会给你更大的蛋糕……
l ……然而合作会让整个蛋糕变大
TREC参与者被要求签署一份协议,明令禁止宣传TREC的结果。这项禁令在TREC成立25周年的录像中被多次提及。尽管参与者们很欣赏这一原则,但吹嘘的诱惑却难以抗拒。
Voorhees提出了一个重要的观点。TREC深度学习方面的概述论文,例如(Craswell et al. 2020),其中的方法分为三种类型:nnlm(神经网络语言模型,如BERT)、nn(其他类型的神经网络)和trad(传统方法)。图1显示了nnlm的性能最好,而trad的性能最差。通过这种方式,合作竞争产生了重要的洞察力,能够以有意义的方式推动领域的发展,这与强调竞争的排行榜不同,而更像是我的排行榜比你的排行榜更重要。
图1. ACL-2021的默认概念
作为合作竞争和竞争的第二个例子,考虑MRQA (Machine Reading for Question answer)。对论文的呼吁强调了许多令人钦佩的目标,如域转移、可解释性、健壮性和错误分析,但不幸的是,公开任务以排行榜为导向,并祝贺获奖者,而没有提到更令人钦佩的目标。
有了稍微不同的设计,公开任务可以为域转移提供一些有趣的见解。表1列出了18个QA基准测试,分成三组6个基准测试。这三个组分别用于训练、验证和测试。假设我们没有使用这组火车/验证/测试分割,我们使用了许多不同的分割。我们能发现,一些分割比另一些更好吗?
表1. ACL-2021的主题
MRQA 确定了 18 个基准测试之间的一些有趣的相似点和不同点:
l 文本来源:Wikipedia/网络片段/其他
l Wikipedia (7个基准测试): DROP, HotpotQA, QAMR, RelationExtraction, SQuAD, TREC, Natural Questions
l 网络片段(3个基准测试): TriviaQA, SearchQA, ComplexWebQ
l 其他 (8个基准测试): MCTest, RACE, DuoRC, NewsQA, BioASQ, QAST, BioProcess, TextbookQA
l 问题的来源:众包/领域专家/其他
l 众包(9个基准测试):Com