机器学习驱动的语言测试-CSDN博客

Settles, Burr & LaFlair, Geoffrey & Hagiwara, Masato. (2020). Machine Learning–Driven Language Assessment. Transactions of the Association for Computational Linguistics. 8. 247-263. 10.1162/tacl_a_00310.

这篇学术论文发表在今年4月份的《计算机语言学协会学报》上，这是人工智能和自然语言处理领域的顶级期刊。文章主要介绍了如何利用机器学习和自然语言处理技术建立一个自适应的在线英语语言能力评估系统（也就是多邻国英语测试），同时释放人力。

背景

Item Response Theory (IRT, 项目反应理论或潜在特质理论)

IRT是心理测量学领域中的一个模型，它用来分析受试者的潜在特质和其他认知因素。作者使用的是一个简单的逻辑项目反应函数Rash model。 $p_{i}(\theta)$ 是正确相应项目 $i$ 的概率， $\delta_(i)$ 是项目难度， $\theta$ 是受试者潜在能力。
$p_{i}(\theta)=\frac{1}{1+exp(\delta_i-\theta)} \qquad (1)$
Rash model的响应模式如Figure 1所示。
Figure 1:
这个图符合我们正常的认知，受试者的潜在能力越强，他正确响应题目的概率越高；题目难度越高，受试者正确响应题目的概率越低。Rash model 相当于一个二分类的逻辑回归模型，用于预测受试者是否能够正确响应项目 $i$ 。

Computer-adaptive testing （CAT，计算机自适应测试）

CAT的目的是以最少的题目尽可能准确的评估测试者的能力。所谓自适应就是根据受试者对当前题目的答题情况，自动决定下一道题目的难度。显然需要有一个数据集，里面存放好各种题目和每道题目对应的难度系数。
假设每个测试题目间是相互独立的，一个项目响应序列 $\textbf{r}=<r_1,r_2,...,r_t>$ 在给定的潜在能力特质 $\theta$ 上的条件概率是每一个题目的IRF概率的乘积。
$p(r|\theta)=\prod^{t}_{i=1}p_i\theta^{r_i}(1-p_i\theta)^{1-r_i}\qquad (2)$
其中 $r_i$ 表示对题目 $i$ 的响应，即回答正确， $r_i=1$ ; 回答错误， $r_i=0$ 。 $\theta$ 的正确率依赖于 $r$ 中的项，当 $\delta_i\approx\theta$ 时，受试者被正确的评价（译者注：当难度系数正确匹配到受试者的潜在能力，就能给出一个对受试者最合理的评价）。但是，由于精确的 $\theta$ 是未知的，作者使用了一个迭代自适应算法。首先，进行一个临时的估计，最大化对题目 $t$ 响应正确的可能性 $\hat\theta_t\propto agrmax_\theta p(r_t|\theta)$ 。然后基于一个当前估计的 $\theta_{t+1}=f(\hat\theta_t)$ 选择下一个题的难度。重复这个过程一直到达到停止的标准，最终会根据 $\theta$ 给出最终的成绩。概念上讲，CAT类似于ML/NLP中的主动式学习，它的目的是通过自适应选择样本缩小需要付出的努力去训练出一个精确的分类器。

The Common European Framework of Reference (CEFR, 欧洲语言共同参考框架)

多邻国测试的测试结果与CEFR标准的对应关系如Table 1所示。
Table 1: 在这里插入图片描述

译者注：
1. 关于CEFR的描述我就略掉了。简单来说，CEFR是由欧洲语言测试者协会（ALTE）于2001年首次发布的一套建议标准，用来评估语言学习者在所学语言的成就，用来描述语言学习者具有什么水平的语言能力及他们的语言水平能够从事什么样的活动。同时也给予一个教育上的评估方针。许多考试都会将自己的分数与这个参考框架做对应，见补充图1。
补充图1：在这里插入图片描述
2.本文接下来的行文思路就是介绍如何将多邻国的词汇测试和文章测试题目的难度等级与CEFR对应。

测试结构和测试形式

这一节主要是介绍了多邻国的考试题型，一共11个题型，分别对应听，说，读，写和词汇量。很多关于多邻国考试的介绍都有相关的内容，在这里就不再翻译了。

The Vocabulary Scale 词汇评级

为了这一部分的实验，一个有着ESL（English as a second language）教学经验的语言学博士小组, 通过总结自己之前的教学经验，编制出了一个CERF词汇表。这个词汇表提供了6823个英文单词，每一个单词都标记了对应CEFR等级的标签，其中大部分在B1/B2范围内。他们使用这个有标签的单词列表去训练一个词汇评级模型，为每一个yes/no 测试选项分配一个 $\delta$ ，如Figure 2。（译者注：yes/no 测试题在原版论文的2.4节有介绍，就是给定一些自动生成的假的单词和真的单词，受试者需要选择出所有真的单词，不需要了解单词的含义）

Figure 2: 在这里插入图片描述

特征

Culligan根据多个词汇测试的IRT发现，字符长度和语料库的频率可以用于预测单词的难度。这使得这些特征可以有效的应用于本文提出的基于CEFR的词汇评级模型中。
虽然字符长度是非常直观的，但是预料库频率这一特征只存在在真实的英文单词中。然而，本文同样需要假单词的语料库频率这一特征，因为我们的yes/no 测试要求受试者从假单词中区别出真单词。作为频率的代替物，我们在公开的电影字幕语料库中通过使用修改版的Kneser-Ney 平滑算法训练了一个基于马尔科夫链的语言模型。作者使用这个对数似然函数值作为这个模型的一个特征。
作者也使用这个语言模型中单词的Fisher score去生成更多的具有微妙差别的正交特征。单词 $x$ 的Fisher score $\delta_x$ 是一个表示它的对数似然函数值梯度的向量，由 $\textbf{m}$ 进行参数化: $\Delta_x=\frac{\partial}{\partial m}log p (x|\textbf{m})$ 。这些特征在概念上与TFIDF中的三元组相似，并且受先前工作的启发，利用生成的序列模型中的信息去提高判别式分类器的性能。

模型

作者考虑使用两种回归方法进行词汇评级建模：线性和softmax加权。令 $y_x$ 是单词 $x$ 的CEFR等级， $\delta_(y_x)$ 是对应这个等级的百分制的数值，见Table 1 。
对于线性方法，我们令难度系数 $\delta_x=\delta(y_x)$ ，使用直接作用在特征x上的权重w学习出一个线性函数。对于softmax加权的方法，我们训练一个六次多项回归分类器去预测CEFR等级，使得难度系数 $\delta_x=\sum_y\delta(y)p(y|x,\textbf{w})$ 作为后面的 $p(y|x,\textbf{w})$ 的权重之和。

实验

词汇评级模型的性能测试结果如Table 3所示。
Table 3: 在这里插入图片描述
我们使用模型预测值和专家判别的CEFR等级之间的皮尔逊相关系数 $r$ 作为一个评价指标。 $r_{all}$ 是训练集和测试集使用相同数据的结果，这是语言学领域中分析模型的方式，它可以给出模型捕获真单词的难度系数的能力。 $r_{xv}$ 是使用十交叉验证的结果，这个是ML/NLP领域中分析模型的方式，它可以给出模型捕获假单词和未曾出现在CEFR单词列表里面的单词的难度系数的能力。
虽然模型在合成的和没有出现在单词列表里面的单词身上表现出的性能不是特别好（ $r_{xv}\le0.60$ ），两种回归模型都表现出健壮的正相关（ $r_{all}\ge.90$ ）。线性回归与softmax回归相比表现出明显的过拟合，因为它在训练集上的测试结果近乎完美，而在十交叉验证上的测试结果中出现了一些偏差。特征消融的结果也揭示出Fisher score特征非常的重要而字符长度的影响较小（大概是因为字符长度被含蓄的包含在了Fisher score特征中）。
Softmax加权方法预测的单词评级示例展示在Table 4中。越高级的单词（higher $\delta$ ）越罕见并且大多数都含有希腊拉丁语词源；越低级的单词越常见，并且大多数词源来自于英国本土。这些特征也表现在一些不存在的假单词身上（比如：‘cload’比‘fortheric’更像英国本土的单词且更加常见）。虽然我们不进行任何假单词难度的正式分析，但是这些结果可以说明我们的方法捕获到了英语词汇的微妙之处，因为它能很好的将词汇对应到CEFR等级。
Table 4: 在这里插入图片描述
我们的学习模型和专家的评判结果之间的关系的可视化箱形图展示在Figure3（a）中。误差定性分析说明，大部分的错分类是由于一词多义的原因。比如：‘a just cause’ (C1) vs. ‘I just left ( $\delta = 24$ )’ 和 ‘to part ways’ (vs.) ‘part of the way’ ( $\delta = 11$ )。因为这些更基本的词义确实是存在的，所以我们的相关性估计结果可能是保守的。综上分析，使用我们的学习模型预测的单词的难度应用于yes/no 项目中证明是可行的。
Figure 3: 在这里插入图片描述

The Passage Scale 文章评级

在这一节的实验中，我们利用一个从在线资源中搜集的多样的语料库，和使用回归和排序结合的技术去训练文章评级模型。这些方法可以用于预测c-test,听写和演说测试题目中，如Figure 4。（具体的题目类型和要求可以去查阅一下有关多邻国考试的信息）
Figure 4: 在这里插入图片描述
与词汇相比，很少有描述CEFR文本的工作和论述特征，所以可用于训练的具有CEFR标签的文本材料非常少，因此作者选择使用半监督学习方法。首先，通过学习整体难度给文档排序，然后通过一些有CEFR等级标签的文本给更多的具有相似特征的文本打标签。

特征

平均单词长度和句子长度一直被用来预测文本的难度，事实上，仅仅依靠这些特征，测试的结果就已经成正相关了（ $r = 0.91$ ）。受前述词汇评级模型实验的启发，我们同样训练出一个单词级别的unigram语言模型去产生对数似然函数值和Fisher score 特征。

语料库

从在线英语自学网站上，作者收集了一个初始训练语料库。它们由参考的短语和阅读理解中的练习文本组成，所有的文档都标有CEFR等级。作者切割这些文档，并为每一段标注这个文档的CEFR等级，以此作为该段落的难度标签。由此，获得了一个包含3049个具有CEFR等级标签的段落，其中有极少量的A1水平的文本段落和非常多的C1水平的文本段落。作者称这个语料库为CEFR。
由于CEFR语料库的规模较小并且其中文本的出处不确定，作者从维基百科和简版维基百科（维基百科的替代版本，主要供儿童和成人英语学习者阅读）中下载了成对的文章。虽然这些文章对应的CEFR水平不确定，作者可以假设维基百科的难度要高于简版维基百科的难度，因此通过比较每一对文章，模型可以学习与文章段落难度相关的特征，从而为它们打上CEFR标签（除了那些超出CEFR语料库覆盖话题的文章）。这个语料库包含3730篇文章，18085个段落。作者称这个语料库为WIKI语料库。
作者还从Tatoeba上下载了成千上万条英文例句。Tatoeba是一个免费的在线数据库，收集面向外语学习者的例句。作者称这个语料库为Tatoeba语料库。

文章难度排名实验

为了给文章的复杂度进行排名作者使用了一个和Sculley相似的方法。令 $\textbf{x}$ 是一个具有CEFR水平标签 $y$ 的文本的特征向量。一个标准的线性回归方程可以学到一个权重向量 $w$ , 比如 $\delta(y) \approx\textbf{x}^\textbf{T}\textbf{w}$ 。给定一对文本，可以通过一个合成标签给文本进行难度排名并且计算出两个文本之间的特征差异。这个差异结果可以应用到其他的简单文本中以给他们的难度进行排名。虽然这个预测的结果并不是完全的准确，但是它仍然可以被用来对整体的文本复杂度进行排名。
为了训练排名模型，从CEFR语料库中抽取1%的样本，把它与所有的WIKI样本相结合。设置简版维基百科中的段落 $\delta_y=25$ , 对应CEFR等级为A2/B1; 正常维基百科中的段落 $\delta_y=75$ ，对应的CEFR等级为B2/C1。
模型的十交叉验证结果如Table 5所示。这个结果中同样揭示出Fisher score起着很重要的作用，虽然它降低了在CEFR语料库上的正确率，提高了在WIKI语料库上的正确率。作者认为这是因为WIKI语料库上的样本是平衡的（所有的文章在两个站点的网站上都有一个相似的版本），所以单词和句子长度本身就是很好的判别器。实验结果显示，在85%的测试结果中，模型能够正确的将较难的文章段落排在较简单的文章段落之前。
Table 5: 在这里插入图片描述

文章难度评级实验

取得文本排名样本之后，作者使用下述算法为半监督学习中没有标签的样本打标签：

使用排名模型为所有语料库中的样本打分。
对于每一个CEFR语料库中的样本，将它的标签传播给与它最近的5个WIKI和TATOEBA语料库中的样本。
把通过传播的方式打好标签的样本与CEFR样本联合起来。
平衡数据集，每一种CEFR等级取5000样本。
用最终得到的数据集训练一个文章评级模型。

评级模型的预测结果和CEFR等级的相关性关系展示在Figure 3（a）中。虽然这个正相关性是非常稳健的，但是这个正相关的估计仍然是保守的，因为我们在半监督学习传播CEFR标签的时候可能引入了一些噪音，比如：C1标签的文章可能会包含A2等级的段落。
对于WIKI语料库中的样本预测的结果示例展示在Table 6中。我们可以看到C-level的文本（ $\delta=90$ ）的学术性非常强，它包含许多复杂的句子结构和专业的术语。另一方面，A-level（ $\delta=10$ ）的文本更加易懂，它有更短的句子结构，更少的从句和实意单词。B-level（ $\delta=50$ ）的文本介于之间，使用一些基础的语法去讨论了一个政治话题，包含了一些口语词汇（如，‘underdog’，‘headline’）。
Table 6: 在这里插入图片描述

事后验证实验

将模型评级的结果与人工评级的结果进行对比，Figure 3（c）的箱形图显示这两个评级结果之间存在正相关性。C1/C2之间的箱形图差异较小并不奇怪，因为C1/C2之间的差异本身就很微妙，即使是颇具经验的专家也很难正确的区分。

多邻国测试

测试的建设和管理

多领国测试共存储了25000个测试题目。对于每一种形式的题目，将他们按照难度值的索引分成11份（0-5,6-15，…,96-100），分别放入到11个箱子中。 CAT测试会随机选择一个题型作为第一个测试题目，然后循环操作，决定接下来的测试题目类型（即5种类型的测试具有平等代表权）。每一次测试都是从一个校准阶段开始，第一道题目从前两个箱子中采样，第二道题目从接下来的两个箱子中采样，以此类推。四道题目结束后，使用前文所述的IRT模型，评估出一个暂时的潜在能力值，以此决定下一道题目的难度 $\delta_i$ , 然后在这个难度的箱子里随机的选择一个样本作为下一道测试题目。重复这个过程，直到测试题目超过25道或测试时间超过40分钟。

测试结果分析

将多邻国的测试结果分别与IRT中的潜在能力值 $\theta$ 和雅思托福考试的结果进行对比，结果如Figure 5所示。可以看到，所有的对比都是成正相关的。
Figure 5: 在这里插入图片描述

成绩可靠性

多邻国考试的可靠性系数如Table 8所示。这些值高到足以被任何适合高风险测试使用。
Internal consistency: 将试题库一分为二，受试者分别在这两套题库上进行测试，测量两次测试成绩之间的相关性。在Table 8 中可以看到，可靠性的估计值在0.9以上，这个指标达到了用于诊断，就业，学术安排和其他重要目的的要求。
Test-retest: 如果一个受试者多次接受考试，他取得的成绩还是否可靠。作者评估了所有在30天内接受两次考试的考生的成绩的相关性。这个参数值在0.8到0.9之间，0.8对于高风险的CAT考试已经足够了，因为CAT本身是自适应形式的考试，每次测试会话间的题目是有明显区别的。
Table 8: 在这里插入图片描述

测试题库的安全性

因为CAT的自适应特性，只要测试题库足够大，它就比其他固定形式的考试更加安全。测试题库的两个安全指标分别是题目曝光率和测试重叠率。关于这两个指标的中位值和均值在Table 9 中展示。
Table 9: 在这里插入图片描述
题目的曝光率是指出现在测试中的题目在全体题库的比率，它的值是0.10%。虽然很少有其他测试机构公布这个指标供作者进行比较，但是多邻国的题目曝光率要远低于无限制连续测试中所推荐的20%。题目重叠率是指不同的受试者做到相同测试题目的比率，它的均值是0.43%（中位数低于0.01%），远低于其他运营的CAT测试（如GRE）所公布的11-14%。这些指标说明本文所提出的方法可以提供十分安全的大型测试库，并且不会影响测试结果的效率和可靠性。