无主题作文打分
- 国内的人写的
- 针对于无法获取主题的作文进行评分
- 缺乏主题相关的作文数据进行训练
主要思想:
第一阶段用来生成训练样本,在每个主题里面都选出好的样本,和不好的样本,注意使用跟主题无关的模型来做
第二阶段用来训练一个跟主题有关的模型:这里的主题是指本身自己的语义主题,而非给出的主题,当然不只是主题有关,又有语法相关,句法相关,语义相关。这里使用深度模型来做,训练数据就是第一阶段生成的
三个贡献
- 两阶段框架,给有主题和无主题之间建立桥梁,通过用评分的作文,给无主题的做训练数据
- 使用伪造的数据label训练一个深度神经网络
- 第一个提出重点强调无主题的打分系统
两阶段架构
prompt-independent stage
- 只考虑主题无关的因素,去训练一个浅的模型,用来识别极端的作文质量,生成正负样本集
prompt-dependent stage
- 主题相关(注意这里的主题是指自身主题相关,而非给出的主题)
2 模型构建
- select confident essays as training data:
- RankSVM,使用一些主题无关的特征
- [0,4]为负例,[8,10]为正例
- A hybrid deep model for fine-grained assessment.
- Semantic embedding(
e
→
s
e
m
\overrightarrow{e}_{sem}
esem): 语义特征
- GloVe词嵌入50维
- 两层biLSTM,一层是句子向量,一层文章向量
- Part-of-Speech(
e
→
p
o
s
\overrightarrow{e}_{pos}
epos): 词性特征
- 36个不同的词性特征,36-dimensional one-hot 嵌入到50维
- 两层BiLSTM
- Syntactic embedding(
e
→
s
y
n
t
\overrightarrow{e}_{synt}
esynt): 句法特征
- 59个不同的句法,one-hot -> 50 embedding
- 三层BiLSTM,先是短语的,句子,文章
- Semantic embedding(
e
→
s
e
m
\overrightarrow{e}_{sem}
esem): 语义特征
重点介绍一下词性特征,句法特征
上面的语法解析树解析句子:“Attention please, here is an example”
- 词性特征,从上图看每一个单词前面的token表一个这个词的词性,那么对于这句话来讲,它的词性特性就是的序列是 [ V B , V B P , R B , V B Z , D T , N N ] [VB, VBP, RB, VBZ, DT, NN] [VB,VBP,RB,VBZ,DT,NN],将这个序列 one-hot–>embedding 之后输入到BiLSTM当中
- 句法特征:有些类似,序列编程了句法特征 [ ( N P , V P ) ( N P , V P , N P ) ] [(NP, VP)(NP, VP, NP)] [(NP,VP)(NP,VP,NP)],注意这是两个样本,输入的是句法的序列,输入到BiLSTM获得短语的句法特征表示,再经过一层BiLSTM获得句子句法特征的表示,再经过一层BiLSTM获得的是文章的句法特征表示
整个深度网络表示如下
- 目标函数 1 N ∑ i = 1 N ( r ( p i , e i ) − r ∗ ( p i , e i ) ) 2 \frac{1}{N} \sum_{i=1}^N (r(p_i, e_i) - r^*(p_i, e_i))^2 N1i=1∑N(r(pi,ei)−r∗(pi,ei))2,其中 r ( p i , e i ) r(p_i, e_i) r(pi,ei)文章 i i i的预测评分, r ∗ r^* r∗文章 i i i的真实评分
- 一些优化参数:
- learning rate: 0.01
- gradient clipped: [-10, 10]
- dropout: 0.5
- batch size: 64
- batch normalization
- 30% for validation
- early stopping
- 评价指标: QWK, PCC, SCC
- 还有一些对比实验,效果最好的是: TDNN(Sem+Synt),即使用语义特征和句法特征
疑惑的是
- 为什么不能直接使用第二阶段的深度神经网络打分,非要再加上一个第一阶段呢?
- 答:
- 这是因为如果直接使用深度神经网络去打分,因为分数当中实际上是包含主题相关的评分部分的,那么训练出来的网络实际上是包含主题评分部分的
- 先用主题无关的特征训练出来一个RankSVM,这样评分高的文章,就跟主题无关,评分低的文章也跟主题无关,这样得出训练集
- 第二阶段的评价网络就只跟文章本身的内容相关,而与是否契合给出的主题无关
- 答:
启示
- 这篇论文给我的启示主要在于如何获取句子的句法特征,词性特征,语义特征。这个非常重要
- 另外就是两阶段的过程,也是一个值得思考的地方