关于短文本智能评卷系统的一个思路

part one. 背景与功能

随着智能化的日益普及,网上智能阅卷成为了一个热门的事物。目前来看的智能阅卷现状,答案固定的选择题和填空题已经基本上完成了以机代人的评阅过程。但是对于文本稍长的简答题和短文本,还没有一个很好的评阅情况。
笔者在校期间,利用项目实训课程的契机,打算在3个月的时间内进行一次尝试,从零到一,由简到难地开发一个智能的短文本评阅功能。


part two. 基本方法和思路

相比于早期的统计学方法实现的阅卷,以及正确率低的分词关键词判断法,这里将采用的是一种基于问题 “提问” 的方式进行阅卷。
先从比较抽象层面上综合概况来说一下,一开始的输入是一个题目上下文文本(记为B),和一段标准的参考答案(记为R),以及考生作答的答案(这里先假设只有一名考生,也就是考生答案只有一段,记为A)。我们将训练一个问题生成的模型,通过将上述的B输入这个模型,将输出一系列问题,记为一个问题集Q。当这些问题Q在具体上下文中提出了以后,我们训练一个网络来进行问题回答和评分,并将网络的评分功能封装在一个函数F里,通过将问题和回答输入这个函数F,F将根据作答情况输出一个得分值S,通过对比R和A在F中的得分S,将问题集Q进行筛选,留下最终那些 “好的问题”,最终根据这些问题在R和A 中不同的得分进行考生答案的总评分。

旁白君,至此肯定没有人能懂,下面进行详细解释。

1.问题生成

基于文本进行问题生成在NLP(自然语言处理)领域是一个重要的研究方向,对此进行解决的网络成熟的模型也不少。

当一个题目文本输入模型之后,便可以生成一系列与这个文本相关的问题,问题集合是Q。

2.问题筛选

但是,光有这些问题是远远不够的,五花八门的问题完全不可以都用来对答案文本提问而据此进行评分,因此,首先要考虑的一个问题就是:如何训练这个问题生成模型,使之能够在一个特定的领域或者科目题干下,生成尽可能有价值的问题。

  • 这里要先补充一点,我们生成问题,对答案问这些问题,势必要得到回答才可以据此评分,因此训练一个回答问题的模型是必然的事情,为了方便理解,这里假设有这样一个可以根据问题和回答文本进行问题回答和评分的模型,并且假定具有较高的准确度。这个模型或者封装了这项功能的函数,我们暂时记为T。

我们可以将一个 ”好的问题“ 归纳如下的特征:
1. 这个问题给T函数,T函数对标准答案和正确的考生答案有一样的回答。
2. 这个问题给T函数,T函数对于正确的考生答案和错误的考生答案会有不同的回答。

如果一个问题同时满足了上述条件,就是一个好的问题。

首先,对于第一个条件是好实现的,将所有的问题输入T函数,分别让T函数在这个问题上,根据标准答案R和考生答案A进行回答,如果输出的评分值相近,那么就可以认为这个问题是满足条件1的。

在一个问题就是条件2,我们为了对条件2进行问题筛选,我们要求所有的Q的幂集,最终选定最大的一个元素,训练集正确的答案样本将对该元素中所有的问题回答为正确。

为了更好理解,我们可以参考下图。

在这里插入图片描述
如图所示,正方形代表的是所有的训练样本即全部考生的答案。其中标记为P的代表positive正例即正确的考生答案,N为错误的考生答案。
对于一个生成的问题q,由于经过了第一步的筛选,所有的问题对于P答案一定是包含的。但是其中仍然可能包含N答案。如上图中的q1,q2,q3。
我们要筛掉N答案,也就是选取所有的P答案,因此,我们先对Q取它的幂集记为P(Q),下一步,对幂集中的每一个元素,也就是Q的子集,对这个子集中所有的问题q进行训练集答案的提问,只有那些子集中每一个问题都和标准答案有不一样结果的考生答案才留下来。

3.评分过程

经过上述过程产生的问题集Q即为筛选过后的问题集,可以用来进行考生答案的评判。
我们将每一个这样的问题分别输入评分函数,比较标准答案和考生答案的输出值的接近度来进行答案的评价,并对不同的问题进行加权。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值