【2020-COLING】Regularized Graph Convolutional Networks for Short Text Classification 用于短文本分类的正则化图卷积网络


论文题目:Regularized Graph Convolutional Networks for Short Text Classification
作者:
来源:COLING(Industry)2020
论文链接: https://www.aclweb.org/anthology/2020.coling-industry.22.pdf

摘要

短文本分类是自然语言处理、社会网络分析和电子商务中的一个基本问题。短文本序列结构的缺乏限制了目前流行的基于深度学习的NLP方法的成功。依赖单词袋表示的更简单的方法往往与复杂的深度学习方法表现相当。为了解决短文本文本特征的局限性,我们提出了一种图正则化图卷积网络(GR-GCN),该网络通过在输出空间中加入标签依赖来扩充图卷积网络。我们的模型在专有和外部数据集上都获得了最先进的结果,比一些基准方法的性能高出6%。此外,我们还表明,与基线方法相比,GR-GCN对文本特征中的噪声具有更强的鲁棒性。

1 引言

短文本分类是信息检索中的一个常见问题(Ji et al., 2014),在多个领域都有应用,包括电子商务(Yu et al., 2012;Shen et al., 2009),社交媒体(Kateb和Kalita, 2015),医疗保健(peran et al., 2007)和认知生物特征识别(Pokhriyal et al., 2016)。在本文中,我们开发一个短文本分类技术解决电子商务平台产品搜索相关的两个问题:1)产品查询分类(PQC)——当客户进入一个自由形式的查询,重要的是要了解他们的产品类型意图推荐和宣传相关的产品。我们将客户搜索查询分类为一个或多个产品类型(例如,鞋子、电视、滑雪板),2)产品标题分类(PTC)——我们将数十亿个产品标题分类为一个或多个产品类别。对于卖家来说,将商品放置在正确的产品类别中并在客户查询时检索它是很重要的。
与传统的文本分类不同,对短文本进行分类带来了额外的挑战。首先,电子商务中的短文通常包括平均长度为3(用于查询)到15(用于产品标题)的句子。其次,与博客或新闻文章等较长的文本不同,这些客户查询或产品标题缺乏“自然的”语言结构,而且经常出现拼写错误。例如,在PQC中,像Nike running, shoes size 9, nike shos(拼写错误的变体)这样的查询都属于shoes类别。此外,查询包含非目标语言文本和非语言文本(如模型/零件号),这在嵌入中引入了噪声。PTC问题也可能面临类似的挑战,同一类产品的标题文本具有很高的多样性。例如,标题PhotoFast microSD to MS Pro Duo CR-5300、Kingston microSD Card和8GB Card For Blackberry Storm 9530都属于同一类型的microSD卡产品,因此需要列在同一类别下。所有这些因素使得单纯依靠文本来分离产品类型类变得困难,因为文本是异构的,而且包含噪音。
在这项工作中,我们提出利用关于输入短文本之间以及类标签之间关系的额外知识来增强文本信息。对于PQC,我们可以通过查看通常购买的商品响应不同的查询从(匿名)用户日志中获取输入用户查询之间的相似性。直观的感觉是,始终导致购买同一组商品的两个查询可能具有类似的产品类型意图。同样,在PTC中,我们可以从历史信息(如共同视图)来估计两个输入产品标题之间的相似性。类似地,在输出空间中,可以使用产品类别分类法对产品类型类之间的关系进行建模,产品类别分类法通常是手工管理的,在电子商务应用程序中随时可用。
这种辅助信息可以自然地以图的形式表示,其中每个节点表示一个短文本(输入图)或一个类标签(输出图),而一条边表示两个节点之间的相似程度。因此,我们提出了一种图正则化图卷积网络(GRGCN)方法,该方法增强了图卷积网络(Tayal et al., 2019),将此类图形信息纳入端到端学习框架中。GR-GCN的两个关键方面是:i)一个GCN,它利用输入空间中的依赖关系来学习节点的更多信息表示(输入短文本),ii)目标函数中的图正则化(GR)术语,利用标签相似性来惩罚每个输入样本上相似类标签的对比预测。从而限制了解空间,使我们的方法对数据中的噪声更加鲁棒。
我们在一个专有数据集和两个公共数据集上进行了大量的实验,并证明了GR-GCN的分类准确率比基于文本的基线提高了6%。此外,我们在输入数据中添加了噪声,并表明与仅基于文本特征的基准方法相比,图的存在使我们的方法对噪声更有鲁棒性。

2 提出的方法

在这里插入图片描述

3 图构建

3.1 产品查询分类PQC

PQC的目标是预测电子商务网站上用户键入的搜索查询的产品类型意图。为了创建输入图,我们使用包含查询关联知识的匿名用户日志。直观地说,导致购买相同商品的任何两个查询都更有可能具有类似的产品类型意图。要构造产品标签之间的输出图,我们首先用属于该类别的产品标题的嵌入平均值来表示每个标签(产品类别)。然后利用标签嵌入向量之间的余弦相似度构造输出图,剔除不符合阈值的边缘。

3.2

4 实验和结果

5 结论

在本文中,我们提出GR-GCN来对文本进行分类,这些文本在两个层次上具有依赖性,即文本样本内部(输入空间图)和输出标签之间(输出空间图)。我们在两个商业电子商务应用中展示了它的有效性和对噪声的鲁棒性。
我们注意到,提出的方法可以为其他领域增加价值,如医学科学,其中输入图可以捕获药物相似度,而输出图可以捕获各种类型疾病之间的关系;在遥感中,输入图可以捕获不同的地面点之间的距离、深度等,输出图可以捕获类似标签(如牧场、植被)之间的相似性,以及完全不同标签(如河流、住宅)之间的区别。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值