Graph Convolutional Networks for Text Classification [阅读笔记]

最新推荐文章于 2024-05-08 16:27:21 发布

WENSHASHA_

最新推荐文章于 2024-05-08 16:27:21 发布

阅读量2.5k

点赞数 5

分类专栏：阅读笔记文章标签： GCN

本文链接：https://blog.csdn.net/weixin_42720033/article/details/93534127

版权

Graph Convolutional Networks for Text Classification [阅读笔记]

简介
贡献
相关研究
方法
结论

简介

文章基于词的共线和文档的词关系，构建了语料库的知识图谱。Text GCN初始化为word和doc的独热表示，然后他们共同学习word和doc的嵌入表示，文档带标签。实验表明，随着训练数据占比降低，Text GCN相对于最先进的比较方法的改进变得更加突出，这表明文本GCN对文本分类中训练数据较少的稳定性。

贡献

提出了一种基于GCN的文本分类方法。首次提出将整个语料库建模成一个异构网络，并同时学习神经网络的word和doc嵌入表示。
Text GCN方法不需要预训练word嵌入和专业知识。Text GCN方法还可以自动学习预测词和文档嵌入。

方法

图卷积网络（GCN）

GCN是一个多层的神经网络，直接作用于图并能够基于节点的邻接关系，产生节点嵌入向量。本文使用的GCN迭代公式如下：
$L^{(1)} = \rho(\tilde{A}XW_0)$
$L^{(j+1)} = \rho(\tilde{A}L^{(j)}W_j)$
其中，
$A$ ：图G的邻接矩阵
$\tilde{A}$ ：矩阵A的正则化表示
$X$ ：包含图G中所有n个节点特征
$D$ ：图G的度矩阵（ $D_{ii} = \Sigma_jA_{ij}$ ）

文本图神经网络 Text GCN

图的构建

本文将word和doc作为节点，构建知识图谱，如下图所示：
Text GCN Graph
图中：

节点总数 $V$ = doc（语料库）+unique word（词库）
边 $E$ = doc-word edge + word-word edge
doc-word edge边权重 $w e i g h t$ 基于word在doc中出现的信息，用 TF-IDF算法计算。
TF-IDF算法是一种简单快捷的文档特征词抽取方法，通过统计文档中的词频来对文档进行主题分类，用以评估一个word对一份doc或一个语料库中的其中一份doc的重要程度。word的重要性随着它在doc中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF其主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。其计算方式为：
- TF(Term Frequency 词频)：某个word在该doc中出现的次数，计算公式如下：
  $tf_{i,j}=\frac{n_{i,j}}{\Sigma_kn_{k,j}}$

最低0.47元/天解锁文章

WENSHASHA_

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
Graph Convolutional Networks for Text Classification [阅读笔记]

Graph Convolutional Networks for Text Classiﬁcation [阅读笔记]简介贡献相关研究传统文本分类方法基于深度学习的文本分类方法图神经网络方法图卷积网络（GCN）文本图神经网络 Text GCN图的构建网络结构结论简介文章基于词的共线和文档的词关系，构建了语料库的知识图谱。Text GCN初始化为word和doc的独热表示，然后他们共同学习word...
复制链接

扫一扫