【论文阅读】GRAW+：A Two-View Graph Propagation Method With Word Coupling for Readability Assessment

沐兮Krystal

已于 2022-07-27 20:15:06 修改

阅读量357

点赞数

文章标签：机器学习人工智能深度学习自然语言处理

于 2022-07-25 18:01:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GW_Krystal/article/details/125938319

版权

GRAW+：A Two-View Graph Propagation Method With Word Coupling for Readability Assessment

基于图的分类方法（利用文档之间的关系）
耦合词袋模型（评估词在阅读困难上的关联）
双视图传播方法（同时利用词袋模型与语言特征）

方法

总的来说，分为如下两个阶段：

特征表示（把文档映射为特征向量）
可读性分类（图构建、图合并与标签传播）

一. 耦合词袋模型（The Coupled Bag-of-Words Model）

1.构建词耦合矩阵（the word coupling matrix）

假设：简单的词倾向于出现在简单的句子中，难的词倾向于出现在难的句子中。
想法：评估一个词的阅读困难，通过它在不同难度等级的句子中的共现概率分布。
Note：使用未标签的句子，用启发式函数（heuristic functions）给句子打上阅读难度的标签。

Step1：Per-sentence reading difficulty estimation

使用启发函数做一个粗略的估计，得到每个句子的弱标签（weak label）。
利用8个语言特征（可以应用于句子级别的），构建了8个启发函数来计算句子的难度得分。
把连续的分数进行离散化，采用下式得到每句的阅读等级（3个方面）

Step2：Per-word difficulty distribution estimation

每个词 $t$ 对应一个长度为i的向量（ $i$ 为阅读等级的数量）。
向量的每一个维度 $i$ 为一个概率值 $p_t(i)$ ，等于该词出现在对应等级 $i$ 的的句子数占该词出现的句子总数的比例，计算公式如下：

Step3：Word coupling matrix construction

词耦合矩阵中每个元素的值对应于两个词之间的关系，值为两个词之间的向量的相似度/概率分布的差异。
一共构建了3个词耦合矩阵 $C^{sur}，C^{lex}，C^{syn}$ 。
过滤策略（避免词汇量过大时会非常耗时）：根据词的熵，设定百分比，过滤低熵的词。

2.生成耦合词袋模型

通过词耦合矩阵与基础的词袋矩阵（BoW matrix）相乘，得到耦合词袋矩阵（coupled BoW matrix)。
一共构建了3个耦合TF-IDF矩阵，分别是 $M^{sur}$ ， $M^{lex}$ ， $M^{syn}$ ，耦合词袋矩阵（cBoW）会稠密，并且关注阅读困难上的相似度。

二. 语言特征（The Linguistic Features）

构建了一个矩阵 $M^l\in R^{n_l\times \left | D \right | }$ ，其中 $n_l$ 是语言特征的个数。
这篇文章中选择的语言特征都是language-independent，以支持他们提出的方法的独立于不同语言的特性。
Surface Features, Lexical Features, Syntactic Features

三. 双视图传播（Two-View Graph Propagation）

1.图的构建

在这里插入图片描述

2.图的合并

分为视图内同构图合并与视图间的异构图合并。

Intra-view homogeneous graph merging
基本思想是保留公共边同时移除带有冗余信息的边。首先保留在3个图中都存在的邻居节点，对于至少在一个图中存在的节点，选择与点v拥有最少的公共邻居的节点（目的是保证图中出现的三角形数量最少）。边权为3个图对应的边的平均。
Inter-view heterogeneous graph merging
使用因子 $\beta$ 来平衡合并的图中的边的权值：

3.标签传播

在这里插入图片描述

$q_{d}^{(i)}(y)$ 是在第 $i$ 次迭代时，节点 $d$ 为标签 $y$ 的后验概率。
如果d为已标签的节点，则 $q_{d}^{0}(y)=1$ ，否则 $q_{d}^{0}(y)=0$ 。

增强的标签传播（Reinforced label propagation）：

利用可读性等级之间的序数关系。
用一个预先的分类器（根据语言特征）给所有未标签的文档一个预标签，这样每个文档都有了一个先验标签。
通过等级之间的序数差增强边的权重，采用下式进行标签传播：

实验

数据集：CPT (Chinese primary textbook)) 和 ENCT (English New Concept textbook)
验证：hold-out validation
Comparisons to the State-of-the-Art Methods

在这里插入图片描述

the effect of the labeling proportion
Effects of the Word Coupling Matrix
The effect of the parameters $\eta$ and $\lambda$
Effectiveness of Two-View Graph Propagation
Effectiveness of reinforced label propagation

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。