计算机适应性考试题目,考试发展的新方向：计算机化自适应性考试(1998文)

最新推荐文章于 2021-07-30 21:04:04 发布

weixin_39725193

最新推荐文章于 2021-07-30 21:04:04 发布

阅读量278

点赞数

本文介绍了计算机化自适应性考试的发展，如托福和GRE考试的改革，强调了这种考试方式如何通过量体裁衣的试题选择提高考试的可靠性和效率。自适应性考试根据考生的答题表现调整试题难度，确保每个考生都能面对适合自己水平的题目，从而实现更准确的评价。题库建设和等值处理是实现这一考试模式的关键挑战。

摘要由CSDN通过智能技术生成

考试发展的新方向：计算机化自适应性考试(1998文)

主持“托福”考试和GRE考试的美国教育测验服务中心(ETS)已经宣布，将在1998年7月在全世界大部分地区用计算机化自适应性的“托福”考试取代现行的纸笔考试，并在2001年在全球完全取消纸笔“托福”考试。ETS已于1993年推出了计算机化的GRE考试，于1994年推出了自适应性的GRE考试。今天，ETS已经在美国本土取消了纸笔的GRE考试。负责承担在中国实施GRE和“托福”考试的国家教委考试中心正在加紧安装、调试设备，首次计算机化的、自适应性的GRE有望于年内在中国举行，首次计算机化的“托福”考试有望明年在中国举行。

当“托福”和GRE考试以纸笔方式进行时，考生在美国本土每年只有五次参加考试的机会，在中国每年只有两次参加考试的机会。实现计算机化的考试以后，原则上考生在一年365天的每一天都可以参加考试。以往，考生在参加完考试以后，至少一个月以后才能拿到考试成绩。实现计算机化的考试以后，考生在考试之后立即可以拿到成绩。这些固然是计算机化考试的优点，但实现计算机化自适应性考试的主要意义并不在这里，而在于新的考试方式可以大大地提高考试的可靠性。

跳出普洛克路斯忒斯之床

在希腊神话中有一个强盗叫作普洛克路斯忒斯(Procrustes)，他住在埃莱夫西斯附近。他设有一张铁床，强迫被捉到的人躺在床上，把身材矮小的拉长，把身材高大的截短，使他们的身体与铁床的长短相等。

工业化是一个以牺牲个性为代价来追求效率的时代。与私塾式的传统教育相比，伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此，也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰象普洛克路斯忒斯的铁床：不管人的能力有不同特点，将快的拉慢，将慢的拉快。在过去的岁月里，这或许是为了获得效率而不得不付的代价。但是，随着计算机技术神话般的迅速发展，兼有效率和个性的教育已经成为可能。

伴随教育而发展的考试也是如此。传统的团体性考试是工业化时代的产物，它假设参加考试的考生都具有相近的水平，假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样，这一假设并不符合实际。事实上，好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试，对于一年级和五年级的学生来说则可能完全无效，或者说，一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息，但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。对于某一水平的考生来说是很好的一项考试，对于另一水平的考生来说可能并不是一项好的考试。就一份包含100道题目的试卷而言，对于那些水平较高的考生来说，其中许多较容易的题目形同虚设；对于那些水平较低的考生来说，其中许多难题的作用也非常有限。事实上，能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。就是说，在100道题中真正有效的仅仅有几十道题。如果在一次考试中一位考生所回答的问题都是与他的水平相适应的，都是有效的，就可以大大提高评价的准确性。能否在考试中使每个考生所回答的所有问题都与他的水平相当呢？以往，这一要求近乎异想天开，但计算机技术的发展使这种个性化的考试成为可能。

“裁缝测验”

早在五十年代，“程序教学”和“机器教学”的理论就被提出，但是，囿于当时的技术条件，这些理论未能得到广泛地实践。与此相仿，由于认识到经典测验理论的局限，心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限，在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后，随着计算机技术的发展，基于计算机之上的自适应性考试(Adaptive

Test

)应运而生。自适应性考试是指在考试施测过程中根据考生特点调节试题数量和难度的考试。因此，自适应性考试又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailored

Test )。

借助计算机实现的自适应性考试的具体过程是：先给考生出一道中等难度的题目。如果他答对了，就随机给他一道稍微难一点的题目；如果他答错了，就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围，当他回答的题目所累计的信息量可以使误差足够小时，考试即告结束。

自适应考试流程图1

自适应考试流程图2

自适应考试流程图3

自适应性考试的理论基础是现代测验理论。根据现代测验理论，一道题目对于不同水平的考生所提供的信息量不同。自适应性考试需要根据考生水平来确定题目数量和难度。在考试进行过程中，需要不断地估计考生的能力，并根据估计得到的关于考生能力水平的参数来计算每道题目所提供的信息量，并估计考试的测量误差幅度。对考生能力水平的估计是随着考试进行过程而不断变化的，关于信息量和测量误差的估计也是不断变化的。因此，整个考试是一个计算机系统与考生不断相互作用的动态过程。

题库

为了实现计算机化的自适应性考试，必须具备一个较大规模的题库。所谓题库(Item

Bank)是指按一定原则组织起来的一批试题，这些试题应具有关于题目性质和题目质量方面的参数。例如，该题目考察的知识内容、能力种类、难易度、区分度，等等。尽管各个考生所回答的试题是不一样的，但每位考生所完成的试卷结构应该是基本相同的。例如，在一个物理考试中，每一位考生所回答的问题都应该包含力学、光学、电磁学等内容，都应该包含对概念理解、计算和应用能力的考察。这样，题库首先需要根据知识内容、能力种类被划分为许多题目单元。在自适应性考试的过程中需要根据考生的答题情况来决定继续测试的题目的难度并随机抽取题目。因此，这些分别属于不同知识内容和能力种类的题目单元又要被划分为不同的难度等级，只有每一等级都具有一定数量的题目时，才可能从中随机抽取题目。考虑到试题的保密性和公平性，通常，一道试题一旦被选中，在相当一个时期内它就应该被“冻结”。不难理解，为了使计算机化的自适应性考试得以顺利进行，题库必须具有相当的规模。编制具有相当规模的题库，使题库中的每道题目都具备知识内容、能力种类、难易度、区分度等方面的参数，这是实现计算机化自适应性考试的难点之一。

等值

考试的目的是为了对考生的水平作出客观、公正的评价。考试的分数经常成为入学、就业决策的依据。在计算机化自适应性考试中，不同的考生将回答不同数量、不同内容的一组试题。为了保证考试的客观性和公平性，必须在这些各个不同的试卷之间建立起可比性，必须将考生的成绩在一个统一的量表上进行标定。这个过程就是等值。在实际的考试过程中，甲考生可能答对了8道容易的题目而答错了2道中等难度的题目，乙考生可能答对了2道难题，2道中等难度的题目，并答错了6道难题。尽管乙考生只答对了4道题，最后得分可能高于答对了8道题的甲考生。显然，如果没有合理的等值策略和精确的等值计算，对于考生将是不公平的。因此，建立等值模型是实现计算机化自适应性考试的核心问题，也是最主要的难点。

北京语言文化大学汉语水平考试中心的研究人员从１９９１年即着手进行计算机化自适应性考试的研究，并于１９９２年８月完成了一个实验性的计算机化自适应性考试模型，并在首届国际汉语水平考试学术讨论会上演示。今天，汉语水平考试中心的研究人员正在加紧进行测验等值和题库建设方面的研究。在不久的将来，我们将向世界推出自己的计算机化自适应性汉语水平考试。

(发表于《百科知识》1998年第5期)