GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment
- 基于图的分类方法(利用文档之间的关系)
- 耦合词袋模型(评估词在阅读困难上的关联)
- 双视图传播方法(同时利用词袋模型与语言特征)
方法
总的来说,分为如下两个阶段:
- 特征表示(把文档映射为特征向量)
- 可读性分类(图构建、图合并与标签传播)
一. 耦合词袋模型(The Coupled Bag-of-Words Model)
1.构建词耦合矩阵(the word coupling matrix)
- 假设:简单的词倾向于出现在简单的句子中,难的词倾向于出现在难的句子中。
- 想法:评估一个词的阅读困难,通过它在不同难度等级的句子中的共现概率分布。
- Note:使用未标签的句子,用启发式函数(heuristic functions)给句子打上阅读难度的标签。
Step1:Per-sentence reading difficulty estimation
- 使用启发函数做一个粗略的估计,得到每个句子的弱标签(weak label)。
- 利用8个语言特征(可以应用于句子级别的),构建了8个启发函数来计算句子的难度得分。
- 把连续的分数进行离散化,采用下式得到每句的阅读等级(3个方面)
Step2:Per-word difficulty distribution estimation
- 每个词 t t t对应一个长度为i的向量( i i i为阅读等级的数量)。
- 向量的每一个维度
i
i
i为一个概率值
p
t
(
i
)
p_t(i)
pt(i),等于该词出现在对应等级
i
i
i的的句子数占该词出现的句子总数的比例,计算公式如下:
Step3:Word coupling matrix construction
- 词耦合矩阵中每个元素的值对应于两个词之间的关系,值为两个词之间的向量的相似度/概率分布的差异。
- 一共构建了3个词耦合矩阵 C s u r , C l e x , C s y n C^{sur},C^{lex},C^{syn} Csur,Clex,Csyn。
- 过滤策略(避免词汇量过大时会非常耗时):根据词的熵,设定百分比,过滤低熵的词。
2.生成耦合词袋模型
-
通过词耦合矩阵与基础的词袋矩阵(BoW matrix)相乘,得到耦合词袋矩阵(coupled BoW matrix)。
-
一共构建了3个耦合TF-IDF矩阵,分别是 M s u r M^{sur} Msur, M l e x M^{lex} Mlex, M s y n M^{syn} Msyn,耦合词袋矩阵(cBoW)会稠密,并且关注阅读困难上的相似度。
二. 语言特征(The Linguistic Features)
- 构建了一个矩阵 M l ∈ R n l × ∣ D ∣ M^l\in R^{n_l\times \left | D \right | } Ml∈Rnl×∣D∣,其中 n l n_l nl是语言特征的个数。
- 这篇文章中选择的语言特征都是language-independent,以支持他们提出的方法的独立于不同语言的特性。
- Surface Features, Lexical Features, Syntactic Features
三. 双视图传播(Two-View Graph Propagation)
1.图的构建
2.图的合并
分为视图内同构图合并与视图间的异构图合并。
-
Intra-view homogeneous graph merging
基本思想是保留公共边同时移除带有冗余信息的边。首先保留在3个图中都存在的邻居节点,对于至少在一个图中存在的节点,选择与点v拥有最少的公共邻居的节点(目的是保证图中出现的三角形数量最少)。边权为3个图对应的边的平均。
-
Inter-view heterogeneous graph merging
使用因子 β \beta β来平衡合并的图中的边的权值:
3.标签传播
- q d ( i ) ( y ) q_{d}^{(i)}(y) qd(i)(y) 是在第 i i i 次迭代时,节点 d d d 为标签 y y y 的后验概率。
- 如果d为已标签的节点,则 q d 0 ( y ) = 1 q_{d}^{0}(y)=1 qd0(y)=1,否则 q d 0 ( y ) = 0 q_{d}^{0}(y)=0 qd0(y)=0 。
增强的标签传播(Reinforced label propagation):
- 利用可读性等级之间的序数关系。
- 用一个预先的分类器(根据语言特征)给所有未标签的文档一个预标签,这样每个文档都有了一个先验标签。
- 通过等级之间的序数差增强边的权重,采用下式进行标签传播:
实验
- 数据集:CPT (Chinese primary textbook)) 和 ENCT (English New Concept textbook)
- 验证:hold-out validation
- Comparisons to the State-of-the-Art Methods
- the effect of the labeling proportion
- Effects of the Word Coupling Matrix
- The effect of the parameters
η
\eta
η and
λ
\lambda
λ
- Effectiveness of Two-View Graph Propagation
- Effectiveness of reinforced label propagation