每周论文4-周一- MMoE: Robust Spoiler Detection with Multi-modal Information andDomain-aware Mixture-of-Ex

论文题目:基于多模态信息和领域感知混合专家的鲁棒剧透检测

论文链接:https://arxiv.org/abs/2403.05265

目录

 摘要

1 绪论

2 相关工作

3 Methodology

3.1模态特定特征编码器

3.2用户配置文件提取模块

3.3 Domain-Aware MoE层

3.4 Expert Fusion Layer

 3.5 Learning and Optimization

4 Experiment

4.1 Experiment Settings

4.2 Overall Performances

4.3 Robustness Study

 ​编辑

4.4 Multi-Modal Study

 


 摘要

背景信息:

        在线电影评论网站对电影的信息和讨论很有价值。

        然而,大量的剧透评论影响了观影体验,使得剧透检测成为一项重要任务。

GAP:

        以往的方法仅仅关注评论的文本内容,忽略了平台中信息的异质性。例如,评论的元数据和相应的用户信息可能是有用的。

        此外,电影评论的剧透语言倾向于特定类型,从而对现有方法提出了领域泛化的挑战。

方法:

        作者提出MMoE是一种多模态网络,利用多模态信息实现鲁棒剧透检测,并采用Mixtureof-Experts增强领域泛化

        MMoE首先分别从用户-电影网络、评论的文本内容和评论的元数据中提取图、文本和元特征。

        为了处理特定类型的剧透,采用混合专家架构以三种方式处理信息以提高鲁棒性。

        利用专家融合层对不同角度的特征进行融合,并基于融合嵌入进行预测。

实验结果:

        实验表明,MMoE在两个广泛使用的扰流检测数据集上取得了最先进的性能,超过了以前的SOTA方法准确率和F1-得分分别为2.56%和8.41%。

        进一步的实验也证明MMoE在鲁棒性和泛化方面的优势。

1 绪论

        现有的剧透检测方法主要集中在文本内容上:

                将评论句子和电影类型编码在一起以检测剧透。

                合并分层注意网络并引入用户偏见和项目偏见。

                利用语法感知图神经网络对上下文词的依赖关系进行建模。

                考虑到外部电影知识和用户互动,以促进有效的剧透检测。

到目前为止,所提出的方法仍有一些局限性:

        仅仅依靠文本内容是不足以进行鲁棒扰流检测的(Wang et al., 2023)。整合多个信息源(元数据、用户简介、电影简介等)对于可靠的剧透检测是必要的。

        如图1所示,仅根据文本内容来判断这篇评论是否包含剧透是具有挑战性的。

        然而,通过对历史评论的分析和为该评论者建立用户档案,可以正确地识别出该评论者是一个剧透者。

        此外,元数据中的投票计数也表明,该评论是一个潜在的破坏者。

        其次,剧透语言倾向于体裁化,因为人们关注的焦点会随着电影类型的不同而变化,从而导致他们的评论具有鲜明的特点。

                在动作片中,打斗场面成为主要亮点。

                另一方面,对于悬疑电影来说,情节是最重要的。

        现有的方法无法区分不同风格的剧透评论,这给适应日益多样化的剧透评论格局带来了挑战。

方法:

        提出MMoE(Multi-modal mix -of- experts),它利用了多模态信息和领域感知Mixture-of-Experts。

        通过使用一系列的任务,开始训练多个编码器来处理不同类型的信息。

        接下来,使用这些模型从图视图、文本视图和元视图中获取评论的特征。

        然后,采用混合专家(MoE)将来自不同方面的信息分配到特定的领域。

        使用转换器编码器来组合来自所有三个透视图的信息。

2 相关工作

        剧透检测旨在自动检测电视中的剧透评论(Boyd-Graber等);书籍(Wan et al., 2019)和电影(Wang et al., 2023),从而保护用户体验。

        早期的方法通常是设计手工特征并应用传统的分类器。郭先生与Ramakrishnan(2010)使用词袋嵌入和LDA模型(Blei et al., 2003)来检测电影评论中的剧透。

        Chang等人(2018)提出了一个具有类型意识注意机制的模型。然而,它们没有考虑到细粒度的电影文本信息。

        Wan等人(2019)开发了SpoilerNet,它使用HAN (Hierarchical Attention Network) (Yang等人,2016)来学习句子嵌入,然后在其上应用GRU (Cho等人,2014)。SpoilerNet还考虑了用户偏见和物品偏见。

3 Methodology

3.1模态特定特征编码器

        与剧透审查相关的元数据往往与常规审查不同。 元数据作为分类的辅助信息。

        一旦这些数字信息被收集,使用一个双层MLP作为元编码器。

         文本编码器。文本内容在剧透检测中起着至关重要的作用。为了获得高质量的嵌入,我们采用了RoBERTa (Liu等人),2019)作为文本编码器。

        最初,进行微调RoBERTa通过一个使用评论文本内容的二元分类任务,这确保了模型是专门为剧透检测任务量身定制的。

        随后,利用微调RoBERTa对评审内容进行编码,并用单层对编码嵌入进行转换延时。

        图编码器:

                为了对用户、评论和电影之间的复杂关系和交互进行建模,使用图神经网络通过相应的用户特征和电影特征来更新评论特征

                首先构造一个由以下三种节点和三种边组成的有向图:

                E1: Movie-Review 如果评论是关于电影的,将评论节点与电影节点连接起来。 

                E2: User-Review  如果用户发布评论,则将评论节点与用户节点连接起来

                E3: Review-User  使用这种类型的边缘可以在评审之间传递消息

                对于电影和评论节点,分别用微调后的RoBERTa作为输入特征编码它们的概要和评论内容。

                设计了一个用户档案提取模块提取它们的配置文件作为初始特征。初始节点特征通过线性层转换,然后进行ReLU激活;

                

                m_i,t_i表示元数据特征、文本特征以及节点i在图中的初始嵌入。[·,·]表示拼接操作。 

                使用图注意网络(GAT)作为图编码器,从图模态中获得评论的嵌入,即

                在每个GAT层之间添加一个ReLU激活函数。经过L层GAT后,从图视图中得到评论嵌入。 

3.2用户配置文件提取模块

        用户通常有自己的偏好,所以他们要么不经常发布剧透评论,要么经常发布剧透评论。

        用户偏好通过他们的配置文件可以显着帮助剧透检测。

        虽然使用用户的自我描述是获取他们个人资料的一种直接方法,但不幸的是,大多数用户不会在电影网站上提供描述。

        图中往往缺少用户节点的初始信息:

                针对这一挑战,通过以用户历史评论为输入,并输出指示用户偏好的汇总嵌入的用户概要提取模块,获得学习用户概要嵌入,从而对这种用户偏好进行建模。

                将用户的原始语义特征和他们评论的语义特征连接到一个序列中:

                t_i^{raw}第i个用户的描述的原始文本特征是由RoBERTa编码. 分别是文本特征的第一、第二、···和最后对用户i评论。

                由于每个用户的评论数量可能不同,所以采用了“最大长度”策略。小于最大长度的序列用零向量填充,大于最大长度的序列被截断以保证长度均匀

                在获得输入序列后,使用transformer编码器(Vaswani et al., 2017)来获得输出序列。编码器总结用户的历史评论,并利用自关注机制来学习反映用户偏好的综合配置文件嵌入。

                通过在每次评论嵌入后附加分类头来预训练编码器:

                 使用编码器对所有序列进行前向传播,并提取序列中的第一个嵌入(对应于用户原始轮廓特征在输入中的位置)作为用户的轮廓特征,记为ti

        

3.3 Domain-Aware MoE层

        采用MoE对三种模态中的信息进行分治。由于剧透评论在不同类型的电影中表现出不同的特征,利用MoE框架,激活不同的专家来处理属于不同领域的不同评论。 计算每个专家Ej的权重Gj与Shazeer et al.(2017)相同。每个专家Ej是一个2层MLP,

3.4 Expert Fusion Layer

        在获得由领域感知专家以三种模式处理的评论表示后,进一步通过多头transformer编码器将三种模式的表示组合起来,以促进模态交互。 

 3.5 Learning and Optimization

利用交叉熵损失对网络进行优化L2正则化和平衡损失。

        CV为变异系数,G(x_i)表示每位专家的计算权重.鼓励每位专家接受一个平衡的评论样本

4 Experiment

4.1 Experiment Settings

        数据集。在LCS数据集(Wang et al., 2023)和Kaggle IMDB上评估了方法MMoE。剧透数据集(Misra, 2019)。我们采用与Wang等人(2023)相同的数据集分割方法。

4.2 Overall Performances

4.3 Robustness Study

 

4.4 Multi-Modal Study

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值