来源:IEEE
摘要:网络欺凌是社交媒体的疾病,考虑到其毒性、传播速度以及可能造成的破坏规模,自动检测具有重要意义。然而,由于其伪装行为、内容中的噪声以及最近引入的语言混杂,在线欺凌检测(CD)的问题变得非常困难。在本文中,我们提出了一种新颖的基于图神经网络(GNN)的多任务(MT)框架,即MTBullyGNN,用于从混杂语言(code-mixed)中检测情感辅助的在线欺凌。通过聚合来自相似标签节点的信息,GNN能够准确地检测未标记或带有噪声标签的节点(句子)。为了连接节点,我们在句子之间应用余弦相似度,并为基准代码混杂在线欺凌语料库BullySent创建一个单一文本图。实验结果表明,与最先进的方法相比,MTBullyGNN在单个(CD)和多任务(CD和情感)设置下的分类精度分别提高了4.46%和4.92%。此外,还考虑了另一个基准印地语英语混杂单任务数据集,以证明我们提出的模型的鲁棒性。
Introduction
A.Motivation and Evidence
网络暴力是指任何根据某些特征如肤色、性别、种族、性取向、民族、国籍或其他特征而贬低个人的交流方式。最近,在印度和俄罗斯等多语言国家,不同社交媒体和消息分享应用程序中使用代码混合语言的现象迅速增长。在多语言社会中,人们并不总是用单一语言来表达他们的想法。混杂是一种语言现象,其中一个语言中的单词或短语插入到另一个语言的陈述中。因此,这应该是我们目前的重点关注的问题。我们知道一个人的情绪强烈地影响着预期的内容。在一个多任务(MT)范式中,情感分析(SA)的任务通常被认为是提高主要任务性能的辅助任务(如CD[11][12]、投诉识别[13]和推文行为分类(TAC)[14])。这激励了我们开发一个能够高效处理代码混合数据的情感感知CD模型。
B.Research Gap
最近,人们开始研究混合代码语言中的攻击性后检测,例如攻击检测[15]、仇恨言论检测[16]和CD[17][18]。然而,由于缺乏单语语言中普遍存在的结构,传统的 CD 方法不适用于代码混合语言。社交媒体上的代码混合数据提出了额外的挑战,例如简短形式、拼写变化和非语法句子结构 [19]、[20]。最近,基于深度学习的方法已应用于此问题,但取得的成功有限,因为它们无法捕获语料库中文本样本之间的依赖关系,而这是处理噪声文本所必需的。为了克服这一限制,我们提出了 MTBullyGNN,这是一种基于图神经网络 (GNN) 的新型 MT 框架,用于代码混合语言中的情感辅助 CD。通过聚合来自相似标签节点的信息,GNN 有助于准确检测未标记或有噪声的标签节点(句子)。
C.Research Question
在这项工作中,我们提出了三个与为混杂语言构建更好的模型相关的问题(RQ):1)在处理混杂数据时,基于图神经网络(GNN)的模型是否比传统的深度学习模型更好?2)如果是的话,那么哪种变体的 GNN 在我们的语句中表现得更好?3)如何将情感信息作为辅助任务纳入到 GNN 模型中以提高主要任务(CD)的性能。 为了回答上述问题,我们在两个基准混杂网络欺凌数据集上评估了我们提出的 MTBullyGNN 模型,即 BullySent 和 ST-Bully。通过将文本语料库转换为图,其中每个句子都表示为一个节点,并根据句子之间的余弦相似性在两个节点之间绘制一条边。在这项工作中,我们使用了不同的 GNN 变体,如图卷积网络(GCN)、图注意力神经网络(GAT)和 GraphSAGE 神经网络。实验结果表明,在单个(CD)和多任务(CD 和情感)设置下,MTBullyGNN 分别优于SOTA 4.46% 和 4.92% 的分类精度。
Datasets
首先,我们查阅了现有代码混合网络欺凌数据集的文献。我们在印地语-英语代码混合推文中发现了两个网络欺凌数据集(ST-Bully 和 BullySent)。第一个是一个针对儿童和妇女的单任务(仅标记为欺凌)代码混合数据集[28]。第二个是不分性别的多任务(霸凌+情感)网络欺凌数据集,带有欺凌者和情感标签。表I显示了BullySent数据集中的一些示例。表II显示了ST-Bully和BullySent数据集的详细分类分布。