标题
短文本分类是自然语言处理、社会网络分析和电子商务中的一个基本问题。短文本序列缺乏结构限制了目前流行的基于深度学习的NLP方法的成功。为了解决短文本文本特征的局限性,我们提出了一种图正则化图卷积网络(GR-GCN),该网络通过在输出空间中加入标签依赖来扩充图卷积网络。我们的模型在专有和外部数据集上都获得了最先进的结果,比一些基准方法的性能高出6%。此外,我们还表明,与基线方法相比,GR-GCN对文本特征中的噪声具有更强的鲁棒性。
Introduction
在电商短文本中,有两种不同的短文本分类任务:
- Product Query Classification (PQC)。当客户输入一个自由形式的查询时,了解他们的产品类型意图来推荐和宣传相关产品是很重要的。我们将客户搜索查询分类为一个或多个产品类型(例如,鞋子、电视、滑雪板)。
- Product Title Classification (PTC)。将产品名称分类为一个或多个产品类别。
与传统的文本分类不同,对短文本进行分类带来了额外的挑战。电商中短文本的长度为3-15,与博客或新闻文章等较长的文本不同,这些客户查询或产品标题缺乏“自然的”语言结构,而且经常出现拼写错误。因此,本文建议利用关于输入短文本之间以及类标签之间关系的额外知识来增强文本信息。
Proposed Approach
输入特征:
X
∈
R
n
×
d
X∈R^{n×d}
X∈Rn×d。标签indicator矩阵
Y
∈
R
n
×
L
Y∈R^{n×L}
Y∈Rn×L。输入图
G
I
=
(
V
I
,
E
I
)
G_I=(V_I,E_I)
GI=(VI,EI),邻接矩阵为
A
I
∈
R
n
×
n
A_I∈R^{n×n}
AI∈Rn×n(添加了自环的),输出的图
G
o
=
(
V
o
,
E
o
)
G_o=(V_o,E_o)
Go=(Vo,Eo),
A
o
∈
R
L
×
L
A_o∈R^{L×L}
Ao∈RL×L。这个输出图是根据模型的输出特征进一步计算的,后文有提到。整个模型结构为:
模型使用了两层GCN,正则化操作针对输出图添加,迫使输出图中相邻节点的预测相似:
损失函数为
L
G
C
N
+
λ
L
G
R
L_{GCN}+λL_{GR}
LGCN+λLGR。这种额外的正则化使我们的模型对噪声特别有鲁棒性。(然后模型的介绍就没啦)
Graph Construction
Product Query Classification (PQC)
构建输入图:使用持有查询关联知识的匿名用户日志。直观地说,任何两个导致购买相同商品的查询都更有可能具有类似的产品类型意图。因此,使用两个查询下的相同购买数量作为两个查询之间的权值
A
i
j
A_{ij}
Aij。
构建产品的输出图:属于该类别的产品标题嵌入的平均值来表示每个标签(产品类别)。然后利用标签嵌入向量之间的余弦相似度构造输出图,丢弃不满足阈值的。
Product Title Classification (PTC)
每个输入样本是一个产品的标题,而输出标签是一个产品类别。对于两个产品名称 i i i和 j j j,节点之间的边权值是co-view数量(我也没太理解co-view是啥),输出图的构建方法与PQC一致。
Experiments and Results
BaseLine都是一些常见的方法:
Impact of Incorporating Auxiliary Graphs
为了单独评估每个图(输入和输出)对模型性能的影响,本文进行了另外两个实验:在SWEM上使用输出图的正则化,发现了结果的提升;在第二个实验中,仅仅在GR-GCN中使用输入图,消除了图正则化,观察到结果下降。
Robustness comparison
通过在嵌入中引入零均值和变化标准差的加性高斯白噪声来评估GR-GCN的鲁棒性。可以通过三幅图发现,假如图正则化之后,抗噪声能力变强。
Effect of the size of the Labelled Data
使用不同比例的训练数据测试了表现最好的模型,发现GR-GCN可以在有限的标记文档下获得更高的测试精度。例如,只有20%的训练数据,GR-GCN在内部数据集上达到了87%的准确性,超过了在100%训练数据上训练的所有其他基线。