【论文阅读】GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment

GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment

  • 基于图的分类方法(利用文档之间的关系)
  • 耦合词袋模型(评估词在阅读困难上的关联)
  • 双视图传播方法(同时利用词袋模型与语言特征)

方法

总的来说,分为如下两个阶段:

  • 特征表示(把文档映射为特征向量)
  • 可读性分类(图构建、图合并与标签传播)

一. 耦合词袋模型(The Coupled Bag-of-Words Model)

1.构建词耦合矩阵(the word coupling matrix)
  • 假设:简单的词倾向于出现在简单的句子中,难的词倾向于出现在难的句子中。
  • 想法:评估一个词的阅读困难,通过它在不同难度等级的句子中的共现概率分布。
  • Note:使用未标签的句子,用启发式函数(heuristic functions)给句子打上阅读难度的标签。
Step1:Per-sentence reading difficulty estimation
  • 使用启发函数做一个粗略的估计,得到每个句子的弱标签(weak label)。
  • 利用8个语言特征(可以应用于句子级别的),构建了8个启发函数来计算句子的难度得分。
    在这里插入图片描述
  • 把连续的分数进行离散化,采用下式得到每句的阅读等级(3个方面)
    在这里插入图片描述
Step2:Per-word difficulty distribution estimation
  • 每个词 t t t对应一个长度为i的向量( i i i为阅读等级的数量)。
  • 向量的每一个维度 i i i为一个概率值 p t ( i ) p_t(i) pt(i),等于该词出现在对应等级 i i i的的句子数占该词出现的句子总数的比例,计算公式如下:
    在这里插入图片描述
Step3:Word coupling matrix construction
  • 词耦合矩阵中每个元素的值对应于两个词之间的关系,值为两个词之间的向量的相似度/概率分布的差异。
  • 一共构建了3个词耦合矩阵 C s u r , C l e x , C s y n C^{sur},C^{lex},C^{syn} CsurClexCsyn
  • 过滤策略(避免词汇量过大时会非常耗时):根据词的熵,设定百分比,过滤低熵的词。
2.生成耦合词袋模型
  • 通过词耦合矩阵与基础的词袋矩阵(BoW matrix)相乘,得到耦合词袋矩阵(coupled BoW matrix)。
    在这里插入图片描述

  • 一共构建了3个耦合TF-IDF矩阵,分别是 M s u r M^{sur} Msur M l e x M^{lex} Mlex M s y n M^{syn} Msyn,耦合词袋矩阵(cBoW)会稠密,并且关注阅读困难上的相似度。

二. 语言特征(The Linguistic Features)

  • 构建了一个矩阵 M l ∈ R n l × ∣ D ∣ M^l\in R^{n_l\times \left | D \right | } MlRnl×D,其中 n l n_l nl是语言特征的个数。
  • 这篇文章中选择的语言特征都是language-independent,以支持他们提出的方法的独立于不同语言的特性。
  • Surface Features, Lexical Features, Syntactic Features

三. 双视图传播(Two-View Graph Propagation)

1.图的构建

在这里插入图片描述

2.图的合并

分为视图内同构图合并与视图间的异构图合并。

  • Intra-view homogeneous graph merging
    基本思想是保留公共边同时移除带有冗余信息的边。首先保留在3个图中都存在的邻居节点,对于至少在一个图中存在的节点,选择与点v拥有最少的公共邻居的节点(目的是保证图中出现的三角形数量最少)。边权为3个图对应的边的平均。
    在这里插入图片描述

  • Inter-view heterogeneous graph merging
    使用因子 β \beta β来平衡合并的图中的边的权值:
    在这里插入图片描述

3.标签传播

在这里插入图片描述

  • q d ( i ) ( y ) q_{d}^{(i)}(y) qd(i)(y) 是在第 i i i 次迭代时,节点 d d d 为标签 y y y 的后验概率。
  • 如果d为已标签的节点,则 q d 0 ( y ) = 1 q_{d}^{0}(y)=1 qd0(y)=1,否则 q d 0 ( y ) = 0 q_{d}^{0}(y)=0 qd0(y)=0
增强的标签传播(Reinforced label propagation):
  • 利用可读性等级之间的序数关系。
  • 用一个预先的分类器(根据语言特征)给所有未标签的文档一个预标签,这样每个文档都有了一个先验标签。
  • 通过等级之间的序数差增强边的权重,采用下式进行标签传播:
    在这里插入图片描述

实验

  • 数据集:CPT (Chinese primary textbook)) 和 ENCT (English New Concept textbook)
  • 验证:hold-out validation
  • Comparisons to the State-of-the-Art Methods

在这里插入图片描述

  • the effect of the labeling proportion
    在这里插入图片描述
  • Effects of the Word Coupling Matrix
    在这里插入图片描述
  • The effect of the parameters η \eta η and λ \lambda λ
    在这里插入图片描述
  • Effectiveness of Two-View Graph Propagation
    在这里插入图片描述
    在这里插入图片描述
  • Effectiveness of reinforced label propagation
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值