论文题目:基于多模态信息和领域感知混合专家的鲁棒剧透检测
论文链接:https://arxiv.org/abs/2403.05265
目录
摘要
背景信息:
在线电影评论网站对电影的信息和讨论很有价值。
然而,大量的剧透评论影响了观影体验,使得剧透检测成为一项重要任务。
GAP:
以往的方法仅仅关注评论的文本内容,忽略了平台中信息的异质性。例如,评论的元数据和相应的用户信息可能是有用的。
此外,电影评论的剧透语言倾向于特定类型,从而对现有方法提出了领域泛化的挑战。
方法:
作者提出MMoE是一种多模态网络,利用多模态信息实现鲁棒剧透检测,并采用Mixtureof-Experts增强领域泛化。
MMoE首先分别从用户-电影网络、评论的文本内容和评论的元数据中提取图、文本和元特征。
为了处理特定类型的剧透,采用混合专家架构以三种方式处理信息以提高鲁棒性。
利用专家融合层对不同角度的特征进行融合,并基于融合嵌入进行预测。
实验结果:
实验表明,MMoE在两个广泛使用的扰流检测数据集上取得了最先进的性能,超过了以前的SOTA方法准确率和F1-得分分别为2.56%和8.41%。
进一步的实验也证明MMoE在鲁棒性和泛化方面的优势。
1 绪论
现有的剧透检测方法主要集中在文本内容上:
将评论句子和电影类型编码在一起以检测剧透。
合并分层注意网络并引入用户偏见和项目偏见。
利用语法感知图神经网络对上下文词的依赖关系进行建模。
考虑到外部电影知识和用户互动,以促进有效的剧透检测。
到目前为止,所提出的方法仍有一些局限性:
仅仅依靠文本内容是不足以进行鲁棒扰流检测的(Wang et al., 2023)。整合多个信息源(元数据、用户简介、电影简介等)对于可靠的剧透检测是必要的。
如图1所示,仅根据文本内容来判断这篇评论是否包含剧透是具有挑战性的。
然而,通过对历史评论的分析和为该评论者建立用户档案,可以正确地识别出该评论者是一个剧透者。
此外,元数据中的投票计数也表明,该评论是一个潜在的破坏者。
其次,剧透语言倾向于体裁化,因为人们关注的焦点会随着电影类型的不同而变化,从而导致他们的评论具有鲜明的特点。
在动作片中,打斗场面成为主要亮点。
另一方面,对于悬疑电影来说,情节是最重要的。
现有的方法无法区分不同风格的剧透评论,这给适应日益多样化的剧透评论格局带来了挑战。
方法:
提出MMoE(Multi-modal mix -of- experts),它利用了多模态信息和领域感知Mixture-of-Experts。
通过使用一系列的任务,开始训练多个编码器来处理不同类型的信息。
接下来,使用这些模型从图视图、文本视图和元视图中获取评论的特征。
然后,采用混合专家(MoE)将来自不同方面的信息分配到特定的领域。
使用转换器编码器来组合来自所有三个透视图的信息。
2 相关工作
剧透检测旨在自动检测电视中的剧透评论(Boyd-Graber等);书籍(Wan et al., 2019)和电影(Wang et al., 2023),从而保护用户体验。
早期的方法通常是设计手工特征并应用传统的分类器。郭先生与Ramakrishnan(2010)使用词袋嵌入和LDA模型(Blei et al., 2003)来检测电影评论中的剧透。
Chang等人(2018)提出了一个具有类型意识注意机制的模型。然而,它们没有考虑到细粒度的电影文本信息。
Wan等人(2019)开发了SpoilerNet,它使用HAN (Hierarchical Attention Network) (Yang等人,2016)来学习句子嵌入,然后在其上应用GRU (Cho等人,2014)。SpoilerNet还考虑了用户偏见和物品偏见。
3 Methodology
3.1模态特定特征编码器
与剧透审查相关的元数据往往与常规审查不同。 元数据作为分类的辅助信息。
一旦这些数字信息被收集,使用一个双层MLP作为元编码器。
文本编码器。文本内容在剧透检测中起着至关重要的作用。为了获得高质量的嵌入,我们采用了RoBERTa (Liu等人),2019)作为文本编码器。
最初,进行微调RoBERTa通过一个使用评论文本内容的二元分类任务,这确保了模型是专门为剧透检测任务量身定制的。
随后,利用微调RoBERTa对评审内容进行编码,并用单层对编码嵌入进行转换延时。
图编码器:
为了对用户、评论和电影之间的复杂关系和交互进行建模,使用图神经网络通过相应的用户特征和电影特征来更新评论特征。
首先构造一个由以下三种节点和三种边组成的有向图:
E1: Movie-Review 如果评论是关于电影的,将评论节点与电影节点连接起来。
E2: User-Review 如果用户发布评论,则将评论节点与用户节点连接起来
E3: Review-User 使用这种类型的边缘可以在评审之间传递消息
对于电影和评论节点,分别用微调后的RoBERTa作为输入特征编码它们的概要和评论内容。
设计了一个用户档案提取模块提取它们的配置文件作为初始特征。初始节点特征通过线性层转换,然后进行ReLU激活;
表示元数据特征、文本特征以及节点i在图中的初始嵌入。[·,·]表示拼接操作。
使用图注意网络(GAT)作为图编码器,从图模态中获得评论的嵌入,即
在每个GAT层之间添加一个ReLU激活函数。经过L层GAT后,从图视图中得到评论嵌入。
3.2用户配置文件提取模块
用户通常有自己的偏好,所以他们要么不经常发布剧透评论,要么经常发布剧透评论。
用户偏好通过他们的配置文件可以显着帮助剧透检测。
虽然使用用户的自我描述是获取他们个人资料的一种直接方法,但不幸的是,大多数用户不会在电影网站上提供描述。
图中往往缺少用户节点的初始信息:
针对这一挑战,通过以用户历史评论为输入,并输出指示用户偏好的汇总嵌入的用户概要提取模块,获得学习用户概要嵌入,从而对这种用户偏好进行建模。
将用户的原始语义特征和他们评论的语义特征连接到一个序列中:
第i个用户的描述的原始文本特征是由RoBERTa编码. 分别是文本特征的第一、第二、···和最后对用户i评论。
由于每个用户的评论数量可能不同,所以采用了“最大长度”策略。小于最大长度的序列用零向量填充,大于最大长度的序列被截断以保证长度均匀
在获得输入序列后,使用transformer编码器(Vaswani et al., 2017)来获得输出序列。编码器总结用户的历史评论,并利用自关注机制来学习反映用户偏好的综合配置文件嵌入。
通过在每次评论嵌入后附加分类头来预训练编码器:
使用编码器对所有序列进行前向传播,并提取序列中的第一个嵌入(对应于用户原始轮廓特征在输入中的位置)作为用户的轮廓特征,记为ti
3.3 Domain-Aware MoE层
采用MoE对三种模态中的信息进行分治。由于剧透评论在不同类型的电影中表现出不同的特征,利用MoE框架,激活不同的专家来处理属于不同领域的不同评论。 计算每个专家Ej的权重Gj与Shazeer et al.(2017)相同。每个专家Ej是一个2层MLP,
3.4 Expert Fusion Layer
在获得由领域感知专家以三种模式处理的评论表示后,进一步通过多头transformer编码器将三种模式的表示组合起来,以促进模态交互。
3.5 Learning and Optimization
利用交叉熵损失对网络进行优化L2正则化和平衡损失。
CV为变异系数,表示每位专家的计算权重.鼓励每位专家接受一个平衡的评论样本
4 Experiment
4.1 Experiment Settings
数据集。在LCS数据集(Wang et al., 2023)和Kaggle IMDB上评估了方法MMoE。剧透数据集(Misra, 2019)。我们采用与Wang等人(2023)相同的数据集分割方法。