[论文精读]6_MTBullyGNN: A Graph Neural Network-Based Multitask Framework for Cyberbullying Detection

本文提出了一种新颖的MTBullyGNN框架,利用图神经网络在混杂语言的网络欺凌检测中考虑情感信息。实验结果显示,相比于最先进的方法,MTBullyGNN在单任务和多任务设置下分别提高了4.46%和4.92%的分类精度,证明了模型在处理代码混合数据时的有效性。
摘要由CSDN通过智能技术生成

来源:IEEE

摘要:网络欺凌是社交媒体的疾病,考虑到其毒性、传播速度以及可能造成的破坏规模,自动检测具有重要意义。然而,由于其伪装行为、内容中的噪声以及最近引入的语言混杂,在线欺凌检测(CD)的问题变得非常困难。在本文中,我们提出了一种新颖的基于图神经网络(GNN)的多任务(MT)框架,即MTBullyGNN,用于从混杂语言(code-mixed)中检测情感辅助的在线欺凌。通过聚合来自相似标签节点的信息,GNN能够准确地检测未标记或带有噪声标签的节点(句子)。为了连接节点,我们在句子之间应用余弦相似度,并为基准代码混杂在线欺凌语料库BullySent创建一个单一文本图。实验结果表明,与最先进的方法相比,MTBullyGNN在单个(CD)和多任务(CD和情感)设置下的分类精度分别提高了4.46%和4.92%。此外,还考虑了另一个基准印地语英语混杂单任务数据集,以证明我们提出的模型的鲁棒性。


Introduction

A.Motivation and Evidence

网络暴力是指任何根据某些特征如肤色、性别、种族、性取向、民族、国籍或其他特征而贬低个人的交流方式。最近,在印度和俄罗斯等多语言国家,不同社交媒体和消息分享应用程序中使用代码混合语言的现象迅速增长。在多语言社会中,人们并不总是用单一语言来表达他们的想法。混杂是一种语言现象,其中一个语言中的单词或短语插入到另一个语言的陈述中。因此,这应该是我们目前的重点关注的问题。我们知道一个人的情绪强烈地影响着预期的内容。在一个多任务(MT)范式中,情感分析(SA)的任务通常被认为是提高主要任务性能的辅助任务(如CD[11][12]、投诉识别[13]和推文行为分类(TAC)[14])。这激励了我们开发一个能够高效处理代码混合数据的情感感知CD模型。

B.Research Gap

最近,人们开始研究混合代码语言中的攻击性后检测,例如攻击检测[15]、仇恨言论检测[16]和CD[17][18]。然而,由于缺乏单语语言中普遍存在的结构,传统的 CD 方法不适用于代码混合语言。社交媒体上的代码混合数据提出了额外的挑战,例如简短形式、拼写变化和非语法句子结构 [19]、[20]。最近,基于深度学习的方法已应用于此问题,但取得的成功有限,因为它们无法捕获语料库中文本样本之间的依赖关系,而这是处理噪声文本所必需的。为了克服这一限制,我们提出了 MTBullyGNN,这是一种基于图神经网络 (GNN) 的新型 MT 框架,用于代码混合语言中的情感辅助 CD。通过聚合来自相似标签节点的信息,GNN 有助于准确检测未标记或有噪声的标签节点(句子)。

C.Research Question

在这项工作中,我们提出了三个与为混杂语言构建更好的模型相关的问题(RQ):1)在处理混杂数据时,基于图神经网络(GNN)的模型是否比传统的深度学习模型更好?2)如果是的话,那么哪种变体的 GNN 在我们的语句中表现得更好?3)如何将情感信息作为辅助任务纳入到 GNN 模型中以提高主要任务(CD)的性能。        为了回答上述问题,我们在两个基准混杂网络欺凌数据集上评估了我们提出的 MTBullyGNN 模型,即 BullySentST-Bully。通过将文本语料库转换为图,其中每个句子都表示为一个节点,并根据句子之间的余弦相似性在两个节点之间绘制一条边。在这项工作中,我们使用了不同的 GNN 变体,如图卷积网络(GCN)、图注意力神经网络(GAT)和 GraphSAGE 神经网络。实验结果表明,在单个(CD)和多任务(CD 和情感)设置下,MTBullyGNN 分别优于SOTA 4.46% 和 4.92% 的分类精度。

Datasets

首先,我们查阅了现有代码混合网络欺凌数据集的文献。我们在印地语-英语代码混合推文中发现了两个网络欺凌数据集(ST-Bully 和 BullySent)。第一个是一个针对儿童和妇女的单任务(仅标记为欺凌)代码混合数据集[28]。第二个是不分性别的多任务(霸凌+情感)网络欺凌数据集,带有欺凌者和情感标签。表I显示了BullySent数据集中的一些示例。表II显示了ST-Bully和BullySent数据集的详细分类分布。

Methodology

文章提出的 MTBullyGNN 模型的整体架构如图 1 所示,表 III 显示了我们提出的模型中使用的符号列表及其说明

A.Problem Statement

假设是包含 N 个实例的数据集,其中 分别表示第 X 个实例对应的情感标签和欺凌标签。这里,(情感类别)和(网络欺凌类别)。我们提出的多任务学习框架旨在最大化函数 (1),该函数将每个实例 与适当的情感标签 和欺凌标签 相关联。

其中, 表示输入文本,需要预测的是霸凌和情感标签。我们要优化的模型参数由θ表示。

解释:函数(1)定义了一个优化问题,目标是找到最佳的模型参数 θ,使得对于数据集中的每个实例 Xt​,模型都能够准确地预测出其情感标签 St​ 和网络欺凌标签bt​。这是一个典型的监督学习问题,其中模型通过从标记的数据中学习来预测未标记数据的标签。        这个模型的目标是预测给定文本 Xt​ 的情感标签 St​ 和网络欺凌标签 bt​。argmax 操作符在这里的作用是找到最佳的模型参数 θ,使得在这些参数下,模型能够最准确地预测出每个实例的情感和网络欺凌标签。具体来说,函数(1)表示对所有实例(从1到N)的联合概率求和,然后找到使这个总和最大化的参数 θ。这个过程通常涉及到梯度上升或其他优化算法,以调整模型参数并提高模型的预测性能。

B.Sentence Encoding with mBERT and Multilingual Universal Sentence Encoder

为了生成输入句子 X 的嵌入,我们尝试了多语言 BERT(mBERT)和多语言通用句子编码器。

1)BERT是一种基于具有多头自注意力机制的双向 Transformer 编码器的语言模型。我们选择 mBERT,它已经过 104 种不同语言的训练,包括印地语和英语,因为我们数据集中的短语是用印地语和英语混合代码编写的。我们考虑了 mBERT 的池化输出,其中输入句子具有 768 维向量表示。

2)多语言通用句子编码器(multiUnivEnc)[35]它使用12层BERT Transformer架构,来获得句子嵌入。我们使用 multi-UnivEnc 来获取句子嵌入,因为它是一个多语言数据集,并且 multi-UnivEnc 在这种情况下表现良好 [36]。 multi-UnivEnc 模型将单个句子编码为长度为 512 的向量。

C.Graph Creation Module

GNN 在对图结构数据中的复杂模式进行建模方面发挥着重要作用。 GNN 的输入是图,其中每个节点表示实例 X ∈ RN×m 的特征向量,并且两个相似实例(Xi 和 X j )通过图的边连接。首先,我们通过计算数据集中嵌入句子之间的余弦相似度来创建相似度矩阵(S)。两个句子嵌入之间的余弦相似度越高,两个句子在语义上相关的机会就越高。令 S(u,v) 为句子 u 和 v 之间的余弦相似度。相似度矩阵用于形成一个图 G = (V, E),由节点集 V 和节点之间的边集 E 构成节点。如果S(u,v)≥ η,则节点集合V中的节点u和节点v之间的边(u, v)∈ E。这里,η的值介于0.65到0.95之间。邻接矩阵A∈ RN×N 是一个方阵,其中Ai点 j= 1当节i和节点j相连,否则为0。节点的度数矩阵被简写为Dii,并定义为Dii = ∑ Aj i,其中Aj i表示与第i个节点相连的j个节点的数量。

D.Graph Neural Network

节点级和图级分类任务可以使用 GNN 执行。在这里,我们将我们的问题定义为监督节点分类任务[37]。因此,目标是将每个节点(顶点) vi 分类到正确的类中,yi , i = 1, 2,...,n。现在,每个节点都可以表示为 k 维向量 hkv,并聚合来自其 k 跳邻居的特征。在 GNN 的消息传递层中,它使用聚合器函数,将节点 Xv 的当前属性与邻居的聚合属性聚合起来。

在这项工作中,使用了 GNN 的不同变体,例如 GCN、GraphSAGE 和图注意神经网络(GAT)。 GCN [38]是广泛使用的GNN模型之一;它使用 ChebyNet 图卷积的一阶近似嵌入第 i 个节点向量。每个节点v,第k跳的向量表示如下:

其中σ表示非线性激活函数, 是聚合函数,N(v)表示v的邻居节点集合,Wk和Bk是需要学习的参数矩阵。现在上式可以紧凑地写成矩阵形式

其中H 0 = Xv是输入特征,H K = Z和Wk分别表示第k神经网络层的输出特征矩阵和权重矩阵。

GCN的工作原理: GCN通过消息传递层(message passing layers)来更新节点的特征表示。在每一层,节点会收集来自其邻居节点的信息,并通过聚合函数(aggregator function)将这些信息与自己的特征结合起来。这个过程可以表示为以下步骤:

1. 邻居信息聚合:对于每个节点 v,GCN计算其所有邻居节点 的特征向量的加权平均,其中 表示节点 v 的邻居集合。权重通常由节点间的相似性或边的权重决定。

2. 非线性变换:聚合后的邻居信息通过一个非线性激活函数(如ReLU)进行变换,以增加模型的表达能力。

3. 特征更新:最后,节点的更新后的特征向量是其原始特征和聚合后的邻居特征的组合,这通常通过一个线性变换(权重矩阵)来实现。

汉密尔顿等人[39]提出了一种归纳节点嵌入方法,称为 GraphSAGE(SAmple 和 aggreGatE),它是在 GCN 之上开发的。它仅使用相邻节点特征的固定大小的均匀子样本来学习节点嵌入。 GraphSAGE传播步长的数学表达式如下:

图注意力网络 GAT 将注意力机制的静态归一化卷积操作替换为传播步骤,由[40]提出。在图注意力层中,节点对 (i, j ) 的系数 αi, j 是使用注意力机制计算的,如下所示:

 那么每个节点的最终表示或者嵌入可以通过表达式得到

其中W l 是可学习的权重矩阵,Zl i 表示节点第l层嵌入的线性变换。在(6)中,el ij 表示成对非标准化注意力分数,它将两个节点的 Z 嵌入连接起来,并将其与可学习权重矩阵 alT 相乘。最后,将其传递给非线性激活函数。现在,使用(7)中的 softmax 函数对注意力分数 αij 进行归一化。最后,(8)中的节点 hl+1 i 由所有相邻节点的聚合表示,并使用注意力分数对其进行缩放。

E.Task-Specific Layers

到目前为止,我们只描述了不同 GNN 模型的节点嵌入过程。到目前为止,两个任务已经共享 GNN 层,从而允许它们共享特定于任务的信息。最后一个 GNN 层的更新节点特征通过两个特定于任务的全连接(FC)层,然后是相应的输出层,以同时解决 CD(主要任务)和 SA(次要任务)任务。

F.Loss Function

分类交叉熵[41]已被用作所有任务的单独损失函数。最终的损失函数 Loss f 取决于 M 个特定于任务的个体损失 Losss,如下所示:

 

变量 β 的范围从 0 到 1,定义了表征每个任务损失占总损失的损失权重。

Experiment,Results,and Analysis

本节描述了各种基线模型和我们提出的模型的结果

A.Baseline Setup

CNN-GRU模型:该模型将BERT输出的维度为128x768的序列输入到具有三个卷积核大小(1、2、3)和每种尺寸100个滤波器的一维卷积层中。然后将卷积特征再次传递给GRU层。最后,从GRU输出的隐藏向量被发送到具有100个神经元的全连接层,接着是一个输出softmax层。评估指标:准确率(Accuracy) 该模型在测试集上的得分为91.67%,比其他基线模型略高。

BiRNN模型:该模型将输入通过Bi-GRU(128个隐藏单元)生成一个256维的隐藏向量,然后将其馈送到全连接层,最后是输出层以预测类别。评估指标:准确率(Accuracy) 该模型在测试集上的得分为91.33%,略低于CNN-GRU模型。

BiRNN-Attention模型:该模型与前一个基线模型相同,唯一的修改是在Bi-GRU和FC层之间添加了一个注意力层。评估指标:准确率(Accuracy) 该模型在测试集上的得分为91.33%,与BiRNN模型相同。

BERT-Finetune模型:该模型通过对mBERT进行微调,在其顶部添加一个输出softmax层来完成任务。评估指标:准确率(Accuracy) 该模型在测试集上的得分为91.67%,与CNN-GRU模型相同,但不如作者提出的模型。

 B.Experimental Setup and Hyperparameters

我们在基于 Python 的库 PyTorch 和 Scikit-learn 上实现了我们提出的框架和所有基线。对于 GNN 实现,我们使用了基于 Python 的 DGL 包。我们在由多个 GPU 组成的混合群集中运行我们的实验,包括 RTX 2080Ti。我们对所有模型进行了五次运行,并报告了平均结果。我们训练我们的模型 500 个 epoch,而不同变体的平均训练时间约为 15.56 分钟。我们使用节点掩码的概念,帮助模型更好地泛化和扩展;80% 的节点用于训练,10% 用于验证,10% 用于测试。我们使用网格搜索方法选择我们在实验中使用的超参数。经验上,在不同的值范围内进行实验并报告最佳结果。有关各种与我们的实验相关的超参数的详细信息,请参见表 4。

 

C.Results and Discussion

值得注意的是,我们的目标是利用情绪信息来提高 CD 的性能。然后我们提供我们的分析和发现,其中 CD 作为首要任务。

我们已经在 BullySent 数据集上报告了我们提出的模型的不同变体的结果,因为它同时具有欺凌和情绪标签。 ST-Bully 数据集的 SOTA 结果与我们提出的模型的最佳单任务变体进行了比较。所提出的 MTBullyGNN 在单任务设置中具有一个特定于任务的层,而不是两个。表 VI 和表 VII 显示了 BullySent 数据集上具有不同嵌入方案和余弦相似度阈值 (η) 的所有 GNN 变体的单任务和 MT 结果的准确性和 F1 分数。其他基线结果如表 V 所示。

1)BullySent 数据集的实验结果:

  • MTBullyGNN模型在CD任务上显著优于所有基线模型,比最佳基线模型BERT-Finetune提高了5.86%的准确率。
  • 在情感分析(SA)任务上,MTBullyGNN也比基线模型提高了3.98%的准确率。
  • 多任务(MT)变体在CD任务上的表现优于单任务分类器,当SA作为辅助任务时,模型的性能进一步提升,准确率和F1分数分别提高了1.61%和1.53%。
  • 使用multi-UnivEnc进行嵌入生成的模型表现优于使用mBERT的模型,这表明multi-UnivEnc更适合编码印地语-英语混合数据。
  • Graph Attention Network(GAT)在多数情况下表现优于GCN和GraphSAGE,这支持了在GNN中使用注意力机制而不是静态归一化卷积操作的观点。
  • 余弦相似性阈值η是创建文本图的关键超参数,不同的阈值对模型性能有显著影响。
  • 实验结果在统计上是显著的,当与零假设进行学生t检验时,p值小于0.05。

 D.Comparison with SOTA

 SOTA:

  • 作者提到了使用先进的自然语言处理(NLP)模型和双语嵌入技术(如VecMap)的现有方法。
  • SOTA方法中,BERT+VecMap模型在BullySent数据集上达到了81.12%的准确率和81.50%的宏平均F1分数(macro-F1)。
  • 在ST-Bully数据集上,BERT+CNN+GRU+Capsule模型报告了最高的准确率,为79.28%。

MTBullyGNN:

  • 作者提出的MTBullyGNN模型在BullySent数据集上达到了84.23%的准确率,显著高于SOTA方法。
  • 在多任务设置中,MTBullyGNN模型(特别是使用Graph Attention Network, GAT的变体)在BullySent数据集上实现了85.94%的F1分数,大幅超过了SOTA方法的81.50%。
  • 作者还与另一个深度学习模型BERT+VecMap-CNN进行了比较,MTBullyGNN在两个数据集上的准确率平均提高了6%。

 E.Error Analysis

分析结果:

  • 错误分析揭示了模型在处理含有特定俚语、讽刺或双关语言的文本时可能面临的挑战。
  • 作者指出,注意力机制在GNN中的消息传递阶段对于正确预测是重要的,特别是在处理具有多重含义的文本时。
  • 作者还讨论了模型在捕捉文本的整体情感倾向时可能存在的问题,尤其是在处理含有复杂情感表达的文本时。

结论:

  • 错误分析帮助作者识别了模型性能提升的潜在方向,例如改进模型对文本语境的理解,以及提高对讽刺和双关语言的识别能力。
  • 作者认为,尽管MTBullyGNN在网络欺凌检测任务上表现出色,但仍有改进空间,特别是在处理混合编码语言和复杂情感表达的文本时。

Conclusion

在本文中,我们提出了一个新框架 MTBullyGNN,用于在代码混合范式中进行情感感知 MT 网络欺凌检测。其核心思想是利用句子的相似性,创建一个图结构,其中节点是句子,弧是高度相似句子之间的连接。这种句子图与 GNN 自然产生共鸣,这也是我们采用这种技术的动机。GNN 使用消息传递层,通过聚合邻近节点的特征来有效地表示节点。在两个基准代码混合网络欺凌数据集上进行评估时,我们提出的 MTBullyGNN 框架明显优于所有 SOTA 单一基准和 MT 基准。我们还发现,使用 multiUnivEnc 对印-英混合编码数据进行编码的性能优于 mBERT。今后,我们将探索 MTBullyGNN 模型在 CD 的图像和文本模式的 meme 数据集上进行评估时的性能。在从多模态数据创建图的步骤中,问题将更具挑战性,因为两个节点之间的连接取决于图像和文本特征。GNN 的解释本身就是一项极具挑战性的任务,因为每个节点的最终表示都是通过聚合相邻节点所有两到三跳的特征向量生成的。因此,在 MT 环境中解释 GNN 是我们未来工作的另一个方向。

Learn

学习本文的写作方式:创新点引入,切入点,研究动机等

  • 45
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值