基于监督对比学习的多模态新闻分类方法研究


随着互联网和移动通信技术的快速发展,新闻数据在各大平台呈爆炸式增长,且数量众多、种类多样,需要科学的方法进行有效的分类管理。然而,目前在新闻分类研究领域,主要集中于新闻文本的算法研究,只有部分研究在多模态新闻分类算法上,而其中大多数研究仅仅将图像特征与文本特征进行简单的拼接,没有考虑不同模态之间的内在联系,然而在新闻当中文本与图片都是相辅相成、紧密联系的。为有效使用新闻数据,挖掘各模态间更深层次的语义联系,本文提出一种基于监督对比学习的多模态新闻分类方法,主要内容包括以下三点:
(1)基于新闻标题与正文的双通道文本特征融合模型:由于新闻标题是新闻内容的精炼概括,包含了整篇文章的核心思想,而正文则提供了丰富的语义信息和上下文特征。因此,本文针对新闻标题和正文使用不同的特征提取方式,以获取新闻标题和正文
各自对应的类别概率向量。并通过引入注意力机制将新闻标题与正文的类别向量进行加权融合,得到最终的文本特征向量。
(2)基于图文双向引导的多模态特征融合模型:通过使用联合注意力机制,减少了文本特征和图片特征在融合过程中产生过多的冗余信息,增加了模态间的信息交互,同时为了防止在多模态信息交互过程中重要信息出现丢失,引入残差连接,得到最终的
多模态融合特征。
(3)采用监督对比学习策略,增强模型在相同标签下新闻特征的学习能力,通过引入混合损失函数对模型进行训练,以提高模型的鲁棒性和分类准确性。并通过在公开数据集 N10News 和自建数据集 Z10News 上进行实验验证,本文所提出的方法不仅展现了其较高的准确率,同时也证明了其在新闻分类任务中的先进性。
【关键词】:多模态;注意力机制;对比学习;特征融合;新闻分类

第1章 绪论

1.1 研究背景与意义

新闻网站作为传递社会焦点和全球新闻的关键媒介,在当代社会中充当了一个不可替代的角色。随着互联网的发展,传统媒体如电视和报纸已逐渐无法满足人们日益增长的信息需求。相对而言,互联网凭借其独特优势成为人们获取新闻信息的主要方式。网络新闻内容已经超越了单一的文字形式,发展为包含文字、图像、视频和音频的多模态形式,从而极大地丰富了用户的阅读体验。由于新闻传播方式从传统的纸质媒体转变为互联网平台,信息的传播变得更加便捷和高效。在此背景下,各类新闻网站和社交媒体平台成为人们获取和分享新闻的主要场所,带来了新闻的爆炸式增长,这些内容在新闻平台和社交媒体上不断涌现,展现出前所未有的多样性和复杂性,对新闻分类和管理提出了新的挑战。在新闻分类领域,多模态新闻分类技术对于应对信息量的爆炸性增长和多样化的内容形式至关重要。由于传统的单模态新闻分类方法主要局限于对文本内容的分类研究,难以正确理解和准确提取新闻所表达的主要内容,进而影响分类的准确性。而多模态新闻分类通过融合文本、图片等不同类型的新闻数据,可以得到更加全面和有效的新闻内容,提供更丰富的信息特征表示,以提高新闻分类的准确性和效率,极大地提升了新闻信息管理的效率,不仅可以协助网站管理员高效的管理新闻信息,建立正确的分类标签,也能为用户提供更加精准的个性化新闻推荐,满足用户对高质量内容的需求,增强用户粘性和满意度。也有助于更深入地分析和理解新闻传播的动态,为媒体内容的策略调整和优化提供数据支持。多模态新闻分类技术在提高新闻分类准确率、优化内容管理、推荐系统和增加用户体验满意度等方面,具有重要的实践意义和应用价值,同时拥有广阔的应用前景。

1.2 国内外研究现状

本节主要介绍新闻分类领域中单模态与多模态分类方法的研究进展。在单模态分类方法中,研究通常集中于使用文本信息进行新闻的分类,而多模态分类方法的研究则集中于通过融合不同模态信息的特征,并由融合特征实现分类任务。

1.2.1 单模态分类研究

随着深度学习的快速发展,推动了计算机视觉技术的不断进步,2014 年 Simonyan等人提出的 VGGNet 网络模型,因其结构简单、可移植性强而广受欢迎。VGGNet 共设计五种不同深度的网络结构,分别是 11 层、13 层、16 层和 19 层,其中 VGG16 和
VGG19 因其深度和性能优势而被广泛应用。2016 年 He 等人提出了 ResNet 残差网络模型,该模型通过引入残差块来解决深层网络训练过程中的梯度消失问题,使得网络能够达到前所未有的深度,常见的网络结构有 18 层、34 层和 50 层。虽然 ResNet 的深度没有 VGG 深,但是却实现了更低的复杂度得到更高的分类精度,成为深度学习领域中的一个里程碑。2020 年,Dosovitskiy 等人提出 Vision Transformer(ViT)模型,该模型通过将 Transformer 模型引入到图像分类任务中,摒弃了传统的卷积神经网络结构,通过将图像直接切割成序列的方式进行处理,避免了 CNN 中固有的归纳偏置问题。不仅验证了 Transformer 结构在视觉任务上的有效性,也为计算机视觉领域带来了新的研究方向。

1.2.2 多模态分类研究

随着人工智能和多媒体技术的发展,社交媒体信息形式变得更加多样。在这种背景下,依靠单一模态进行分类往往无法准确地捕捉有效信息,尤其在单一模态受到噪声干扰时,其分类效果将受到严重影响。而多模态研究通过结合不同模态的特征,相较于单
模态方法能够得到更为有效的特征,强调了不同模态间的相互作用和充分互补,从而提高多模态信息分析的准确性。Mozannar 等人提出一种多模态深度学习框架,用于识别社交媒体帖子中与事件主题不符合的内容,表现出了良好的分类效果。在多模态学习领域,如何有效融合不同模态的特征是一个重点难题,为应对这一挑战,大多采用基于对齐的融合方法,以加强各模态间的关系。基于对齐的融合方法主要有基于体系结构的融合方法和基于对比的融合方法。在基于体系结构的融合方法中,Wang 等人提出通过将特定模态的特征映射到同一空间中来实现。Song 等人则在最小化源和辅助模态分布之间设计了一个适应模块实现了模态对齐。基于对比的融合方法,通过对各模态进行对比学习有效地对齐不同模态的表征,以加强不同模态之间的交互与融合。Huang 等人提出一种基于多模态的深度注意力融合方法,显著提高了模型在公开数据集上的性能。Xie 等人通过引入交互式残差注意力融合策略和频域对比学习,优化了红外与可见光图像的融合效果。

1.3 本文主要研究内容

随着多媒体技术的发展,新闻报道主要采用融合文本、图像等多种模态结合的形式,由于在新闻当中文本和图像是相辅相成、互为补充的,而目前新闻分类方法,主要使用单模态分类,或是通过将文本特征和图像特征进行简单的拼接,忽视了不同模态之间存在的相关性。基于上述问题,本文提出一种基于监督对比学习的多模态新闻分类方法。由于在新闻报道中,文本能够提供更加全面的语义信息,因此,本文着重于文本特征的提取,提出一种基于新闻标题和正文的双通道特征融合模型,以提高模型提取更加有效的文本特征。在多模态融合的过程中,通过使用图文双向引导的注意力网络模型来更新图文特征向量,增强了文本与图像之间的交互。此外,通过引入监督对比学习机制,进一步增强模型学习同一标签下新闻特征的能力。

论文的主要研究内容包括以下三个方面:
(1)为了有效提取新闻文本特征,本文提出一种基于新闻标题与正文的双通道特征融合方法。该方法旨在从新闻标题中提取新闻的主题特征,同时从正文中挖掘更多的上下文信息,实现标题与正文特征的信息互补。通过 Softmax 函数得到新闻标题与正文
的类别概率向量。并引入注意力机制将新闻标题与正文的类别向量进行加权融合,以提
升新闻文本的特征提取能力。
(2)为了有效融合文本和图片特征,本文提出一种基于图文双向引导的注意力网络模型。该模型首先采用多头注意力机制,通过文本特征引导图片特征得到图片的注意力权重分布,并将新生成的图片特征以相同的方式引导生成文本的注意力权重分布,该引导方式可以有效减少冗余信息的产生,通过引入残差连接防止在模态交互过程中重要信息出现丢失。最后,将更新后的图片特征与文本特征进行拼接,得到由文本引导的多模态特征 F1。生成由图像引导的多模态特征 F2,其过程与由文本引导的实现过程相同,只是将其中的文本与图片角色进行互换。并通过加权求和的方法融合多模态特征 F1 与F2,得到最终的多模态联合表征。

第2章 多模态分类相关理论与技术

2.1 文本特征提取技术

在构建多模态新闻分类模型的过程中,文本特征提取是一个关键步骤,它主要分为文本向量化和特征提取两大环节。文本向量化是将文本数据转化为机器可理解的数字向量的过程,以便于后续的数据处理和分析。

2.2 图像特征提取技术

在新闻分类任务中,图像能够为用户提供更加直观的视觉表示,弥补文本信息缺少的语义理解,增加模型分类的准确性。图像的特征提取是图像处理任务中的核心,旨在从图像中提取有效的特征来表示这个图像。目前,在图像分类任务中,深度学习技术被广泛用于提取图像特征,其中 CNN 是最常用的神经网络架构。CNN 主要由多层卷积和池化层交替叠加构成,不仅能够进行表
征学习,还可以对输入的数据进行平移不变分类。与文本分类任务不同的是,图像分类的输入是经过扫描的图像数据,扫描图像的大小由卷积核决定,卷积核的大小称为感受野。通过对图像的重复扫描直至覆盖整个图像,CNN 生成了图像的特征矩阵,进而把图像处理任务转化为向量处理问题。二维卷积计算方法如下所示。
在这里插入图片描述

第3章 基于监督对比学习的多模态新闻分类算法

由于单一模态信息的固有局限,本文旨在通过监督对比学习和图文双向引导的多模态融合策略,探索如何提升多模态的新闻分类效果。首先对本文提出的整体模型架构进行详细介绍,接着阐述如何从多模态文本和图像中提取相应的模态特征,特别是新闻文
本特征提取方法,以更有效的提取文本所表达的语义特征。随后,本文详述了多模态特征融合的过程,强调了图文双向引导融合策略在促进文本与图像间相互学习和互补方面的作用,并探索如何在多模态交互的同时减少冗余信息的产生。最后,通过引入监督对比学习任务,来增强模型学习在相同标签下识别新闻特征方面的能力,从而提高模型的鲁棒性和分类性能。

3.1 整体框架

本文提出了一种基于监督对比学习的图文双向引导多模态特征融合分类模型SCLMMFFN(Supervised Contrastive Learning of Multi-Modality Feature Fusion Network),该模型的整体结构如图所示。
模型的整体结构
SCLMMFFN 模型旨在解决多模态新闻分类问题,该模型主要由四个核心模块构成:多模态特征提取模块、多模态特征融合模块、对比学习模块和新闻分类模块。在特征提取阶段,采用基于新闻标题与正文的双通道融合方法来提取文本特征,由于新闻标题中包含了丰富的主题特征,而正文中则包含了丰富的上下文语义信息,因此该方法根据标题与正文各自的信息差异采用不同的提取技术,以充分有效提取新闻文本特征。针对新闻图片特征,本文使用预训练 VIT 模型进行提取。接着将提取到的文本和图片特征送入特征融合模块,该模块利用图文双向引导的多模态融合策略更新图文特征,以加强文本和图片信息间的交互,并通过引入残差连接防止在多模态交互过程中重要信息的丢失,最后通过加权求和的方式融合更新后的特征,得到最终的多模态联合表征。多模态特征随后被分别送入监督对比学习模块和新闻分类模块。监督对比学习模块主要是增强模型学习在同一标签下新闻特征的能力。模型训练采用分类损失和对比学习损失构成的融合损失函数以提高模型的鲁棒性和分类准确性。

3.2 多模态特征提取

3.2.1 基于新闻标题与正文的文本特征融合

网络新闻通常包含标题和正文信息,其中新闻标题是新闻的核心,能够高度概括新闻想要传达的内容,而正文则可以描述更为丰富的上下文语义信息,用于补充标题所缺乏的上下文语境特征和全局语义特征,为进一步提高文本特征提取的有效性,本文提出一种基于新闻标题与正文的双通道文本特征融合方法 NHTDCF(News Headlines and Texts Dual-channel Feature Fusion),NHTDCF 模型的整体结构如图所示。

在这里插入图片描述
本文使用 RoBERTa 预训练模型提取新闻标题与正文的特征,由于新闻标题与正文长度不一,针对新闻标题通过 RoBERTa 提取特征后,直接使用 Softmax 函数得到各个类别的特征向量概率。而对于新闻正文在通过 RoBERTa 提取特征后,使用 BiGRU 网络和注意力机制进一步提取其上下文语境特征。接着经过 Softmax 函数得到各个类别的特征向量概率。最后,通过注意力机制加权融合标题与正文两个通道的特征向量概率,得到最终的新闻文本特征向量。

3.3 基于图文双向引导的多模态特征融合

由于在多模态分类数据集当中,各模态数据所表达的信息只有部分内容具有相关性,如果不考虑模态间的信息交互,那么融合得到的多模态特征将包含大量与分类任务无关的冗余信息,因此不能单纯的直接将各模态的特征进行结合。Zhang 等人[52]通过结合注意力机制提出了一种联合注意力模型。该模型通过将语义和结构特征结合在一起,并利用注意力机制强调输入数据中的关键信息,同时弱化次要信息的影响,提高了命名实体识别的效果。本文将联合注意力机制在原有注意力机制融合的过程中进行改进,减少了文本特征和图片特征在融合过程中产生过多的冗余信息,增加了模态间的信息交互,虽然联合注意力机制在特征提取有效性上有所提升,但是也可能出现模态中部分重要信息的丢失,并没有完全考虑到多模态之间的关联性、互补性和一致性等特点。针对上述问题,本研究提出了一种基于图文双向引导的多模态特征融合模型 BGFMM(Bidirectional Guided Fusion of Multi-modal features Model),旨在通过精细化融合提升分类的准确性与效率。同时为了防止在多模态信息交互过程中重要信息出现丢失,引入残差连接。该方法主要由两部分组成,第一部分由文本引导生成的多模态特征,第二部分由图片特征引导生成的多模态特征。模型能够有效地减少冗余信息,同时保留各模态中的重要信息。最后通过加权求和的方法融合这两部分特征,得到最终的多模态特征表示。
在这里插入图片描述
基于图片引导的多模态特征表示模块的作用也是增加模态间的信息交互,通过图片特征引导生成文本各个部分的注意力权重分布,以减少文本中产生过多的冗余信息,同时引入残差连接防止在多模态信息交互过程中重要信息出现丢失,以提高模型的效率及泛化能力。该模块的具体实现方式如图所示。
在这里插入图片描述

3.4 特征融合

根据图文的联合注意力机制,完成了对文本和图片特征的更新,分别得到基于文本特征引导的多模态特征 F1 和基于图片引导的多模态特征 F2,进而将多模态特征 F1 与 F2进行加权求和,得到最终融合后的多模态特征 F。融合结构图如图所示。
在这里插入图片描述

3.5 监督对比学习

本文引入了对比学习的策略,旨在缩小预测结果与真实标签之间的距离,特别是对于那些预测结果与真实标签相似的情况,使其更为接近,同时增大与真实标签不相似的预测结果的距离。在提取到视觉和文本特征后,通过将这两种模态特征在多模态特征融合层进行充分深度融合和交互,再将得到的多模态特征送入全连接层进行分类预测,最后采用对比学习损失函数对其预测结果进行优化。监督对比学习方法,主要应用于处理有标签数据集,需要拉近与所有同标签的距离来实现分类。对于新闻而言,即使新闻内容和新闻事件不同,但新闻描述的类别是相同的,因此对于每个类别其中的正样本为所有同标签的数据,相应的负样本对为不同标签。
监督对比损失函数公式所示:
在这里插入图片描述

3.6 新闻分类模块

交叉熵损失函数被广泛应用于分类问题中,用于衡量预测概率分布与真实标签分布之间的差异。交叉熵损失函数可以表示为:
在这里插入图片描述

第4章 实验设计与结果分析

4.1 数据集

本文在公开数据集 N24News 和自建数据集 Z10News 进行实验研究,其中 N24News数据集采集自包含图像和文本的《纽约时报》,去除只包含一种模态和包含视频的新闻。与其他的数据集相比,N24News 涵盖了人们日常生活中所有必要的新闻类别。在此基础上选择其中的 10 个新闻类别做实验研究,总计包含三万四千条新闻数据,各新闻类别为 3000 条,选用的新闻类别有 Health、Books、Science、Movies、Food、Dance、Real Estate、Technology、Sports 和 Music 十个类别,并为这些类别分配相应标签 0-9,{‘Health’:0,‘Books’:1,‘Science’:2,‘Movies’:3,‘Food’:4,‘Dance’:5,‘Sports’:6,‘Real Estate’:7,‘Technology’:8,‘Music’:9},将其重新命名为 N10News。Z10News 采集自百度新闻、今日头条等国内新闻网站,其新闻类型和数量同 N10News 数据集相同。选取的新闻类别有
证券、历史、军事、汽车、房产、旅游、数码、教育、运动和娱乐,并为这些类别分配相应标签 0-9,即{ ‘证券’:0,‘历史’:1,‘军事’:2,‘汽车’:3,‘房产’:4,‘旅游’:5,‘数码’:6,‘体育’:7,‘运动’:8,‘娱乐’:9}。其中训练集、验证集和测试集的划分比例为 8:1:1。本文所有对比实验均采用同一个训练集、验证集和测试集,以保证实验结果的准确性和严谨性。

4.2 实验设置

4.2.1 实验环境

在这里插入图片描述

4.2.2 评价指标

在多模态分类任务中,为全面评估模型的分类效果,通常采用准确率、精确率、召回率、F1 值和混淆矩阵来了解模型性能,从而指导模型设计和参数调整,以提升预测效果。其中 TP、TN、FP 和 FN 的具体含义如所示。
在这里插入图片描述
本文的实验参数主要有三部分,包括 SCLMMFFN 模型、NHTDCF 模型和 BGFMM
模型的参数。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3 对比实验及结果分析

为验证基于监督对比学习的多模态新闻分类方法的有效性,本节首先设计了单模态与 SCLMMFFN 分类模型做对比实验,接着选用多模态融合分类模型与 SCLMMFFN 进行多模态对比实验,具体实验安排如下。

4.3.1 单模态对比模型

为验证文本和图片对模型分类效果的影响,本文选用了 BiGRU、RoBERTa 和BERT_BiGRU[54]模型进行文本分类对比实验,使用 VIT 模型进行新闻图片分类对比实验。模型具体内容如下:
(1)BiGRU:通过对新闻文本(含标题与正文)进行预处理,并转化为词向量作为模型的输入。再将这些词向量送入双向门控循环单元(BiGRU)的隐藏层,利用 BiGRU从文本的前向和后向两个维度捕捉信息,模型根据学习到的特征输出最后的分类结果。
(2)RoBERTa:RoBERTa 采用了和 BERT 模型同样的双向 Transformer 编码器作为中间层来提取信息,并在 BERT 模型的基础上做了调优和改进,使得模型获得了更加准确的分类结果。
(3)BERT_BiGRU:首先通过 BERT 模型将新闻文本转换为词向量,接着采用双向门控循环单元来捕捉文本中的上下文关系,提取更有效的文本特征,最终实现文本的分类。
(4)VIT:该模型采用了自然语言处理领域的 Transformer 架构,通过将输入图像分割成小块,并标记每一块的位置信息,然后通过 Transformer 编码器捕捉块间复杂的关系,最后通过分类头输出图像分类结果。本文分别在 N10News 和 Z10News 数据集上对上述模型进行实验,得到的对比实验结果如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过在 N10News 和 Z10News 数据集上的单模态对比实验结果得出,在对新闻进行单模态分类时,单模态的文本分类效果相较于图片分类准确率高出 30 多个百分点,表示在多模态新闻数据集中,新闻文本数据所表达的信息更容易被提取到,图像分类模型在进行图像特征提取时容易被图像中的其他信息所干扰,从而导致分类效果较低,另一方面,也说明文本内容所表达的信息更为详细和全面,使得模型可以更加精准的分类出新闻所属类别。通过 BiGRU、RoBERTa 和 BERT_BiGRU 这三组对比实验可以得出,在 N10News数据集上,BERT_BiGRU 模型相较于 RoBERTa 模型,准确率提升了 1.53%,F1 值提升了 0.48%,表明 BiGRU 可以提取更加有效的长文本特征;BERT_BiGRU 模型与 BiGRU模型相比,准确率提升了 3.27%,F1 值也提升了 3.07%,说明 BERT 词嵌入模型相比于传统的 word embedding 生成词向量效果更好。在 Z10News 数据集上,BERT_BiGRU 模型相较于 RoBERTa 模型,准确率提升了 0.54%,F1 值提升了 0.59%;BERT_BiGRU 模型与 BiGRU 模型相比,准确率提升了 7.33%,F1 值提升了 7.34%,再次验证了上述结论,并且相比于在英文数据集 N10News 上 RoBERTa 和 BERT_BiGRU 模型的表现,其在中文数据集 Z10News 上的效果更为显著。
本文提出的 SCLMMFFN 模型,在两个数据集上相较于单模态分类效果最好的BERT_BiGRU 模型相比,无论是从准确率、精确率、召回率和 F1 值四个指标上都有显著提升。其中,在 N10News 数据集上 Accuracy 提升了 5.09%,在 Precision 上提升了5.08%,在 Recall 上提升了 6.55%,在 F1 上提升了 5.79%;在 N10News 数据集上 Accuracy提升了 7.83%,在 Precision 上提升了 7.83%,在 Recall 上提升了 7.97%,在 F1 上提升了 7.82%。都证明了本文提出的基于监督对比学习的多模态新闻分类方法是有效且合理的。

4.3.2 多模态对比模型

为验证 SCLMMFFN 模型的分类效果,本节从当前分类效果较好的多模态模型中选择 NNews、MCAN、MI2P]和 MVAE模型进行对比实验,各模型具体实现如下所示:
(1)NNews:该模型通过使用 ViT 和 RoBERTa 模型分别从图像和文本中提取特征,并通过合并图像和文本嵌入,实现新闻文本与图像特征的融合,使用三个多层感知器(MLP)进行特征标签的预测,同时采用交叉熵损失函数计算预测误差以优化模型。
(2)MCAN:MCAN 模型使用 BERT 和 ViT 预训练模型分别从新闻中提取文本特征和图像特征,并通过将多个注意力(co-attention)层叠加,有效融合了多模态特征,捕捉了不同模态之间的相互关系。并且 MCAN 使用的特征融合策略可以扩展至两种模态以上的融合任务。
(3)MI2P:分别使用 DenseNet 和 BERT 预训练模型提取文本和图片特征,通过学习视觉特征与文本特征之间的细粒度相关性,实现了文本和图像特征向量的有效融合。最后通过全连接层来实现多模态的有效分类,从而增强了模型对不同数据源信息的理解。
和解释能力。
(4)MVAE:通过双向 LSTM 技术将文本转换为深层隐向量,并使用 VGG19 网络模型提取视觉信息的隐层特征,将文本特征和图像特征进行融合得到多模态的联合表示,最后将得到的多模态新闻特征送入检测模块以实现新闻的类别分类。本文分别在 N10News 和 Z10News 数据集上对上述多模态模型进行实验,得到的对比实验结果下 所示:
在这里插入图片描述
在这里插入图片描述
在多模态分类对比实验中,从准确率和 F1 指标可以看出,MVAE 模型在 N10News和 Z10News 数据集上的分类效果都最差。说明 MVAE 模型使用双向 LSTM 提取文本特征,使用 VGG19 提取图像特征后进行特征融合的方法,并未得到很好的分类效果。在N10News 数据集上,MVAE 与使用 BERT 作为文本特征提取的 MI2P 模型相比,MI2P模型的准确率和 F1 值比 MVAE 模型降低 0.88%和 0.85%。表明在多模态新闻分类任务中,所选用的单模态特征提取技术对实验结果具有显著影响。同时,NNews 模型通过利用 RoBERTa 在文本特征提取方面的卓越能力,以及 ViT 在处理大规模图像数据时的优秀分类表现,并采用交叉熵损失函数对预测误差进行优化。即便是采取简单的特征拼接方法,NNews 模型在 N10News 数据集上的准确率比 MVAE 和 MI2P 模型分别提高 1.82%和 0.94%。此外,MCAN 模型在 N10News 数据集上的准确率相较于 NNews 模型提高了0.81%,表明通过引入注意力机制融合多模态数据的策略,相较于使用简单拼接特征的方法,能够更有效地挖掘图文之间的相互关联,从而实现更深层次的多模态特征融合,以达到更好的分类效果。最后,通过在 Z10News 数据集对上述多模态对比实验结果进行了验证,其结果与在 N10News 数据集上的结果基本相同。本文提出的 SCLMMFFN 模型,综合了上述多模态模型的优势,通过 BGFMM 模型减少文本特征和图片特征在融合过程中产生过多的冗余信息,并增加了模态间的信息交互,该模型在 N10News 和 Z10News 数据集上,相较于多模态模型中表现最好的 MCAN模型在准确率上分别高出 1.47%和 2.13%,F1 值分别高出 1.47%和 1.9%,证明了SCLMMFFN 模型的有效性和合理性。综合整体的实验数据分析,多模态分类效果明显优于单模态分类的表现,即便是与多模态分类中表现最不理想的 MVAE 相比,在 N10News 和 Z10News 数据集上,MVAE的准确率相较于单模态分类效果最好的 BERT_BiGRU 模型分别高出 0.99%和 3%。表明多模态特征融合对于新闻分类任务的重要性和有效性。通过融合图像与文本特征,多模态的融合方法能够提供更为丰富和准确的特征信息,从而提高模型的分类效果。

4.4 消融实验及结果分析

本节将依次对 SCLMMFFN 模型中的重要模块进行消融实验,主要分为基于新闻标题与正文的双通道特征融合、图文双向引导的多模态特征融合和监督对比学习模块,验证各个模块对本模型的性能影响。

4.4.1 基于新闻标题与正文的文本特征融合

由于传统的新闻分类方法大多采用新闻标题或新闻正文进行分类,没有充分考虑新闻标题与新闻正文所包含特征的不同,进而使用不同的方式来挖掘相应的文本特征。因此,为验证 NHTDCF 模型对整体模型的有效性,本节分别在 N10News 和 Z10News 数据集上进行了擦除 NHTDCF 模块的实验,并使用新闻标题和新闻正文特征来代替NHTDCF 模块。在 N10News 和 Z10News 数据集上的实验结果分别下所示。
在这里插入图片描述
在这里插入图片描述
实验结果表明所选用的新闻文本内容对新闻分类效果产生了重要影响,在 N10News和 Z10News 数据集上使用新闻标题的四种评价指标都是最低的,相比于使用新闻正文进行分类准确率分别低了 8.82%和 13.5%,F1 值分别降低了 8.29%和 13.27%,造成该结果的主要原因是由于新闻标题篇幅短小,缺少一定的上下文语境信息对其包含的主题和关键字做一定的补充,从而造成 RoBERTa 仅仅根据标题的字面语义进行分类,而RoBERTa 预训练模型分类效果与文本长度有直接关系。使用 NHTDCF 模块进行分类时,在 N10News 和 Z10News 数据集上,相较于使用新闻标题准确率分别提升 10.69%和16.16%,F1 值分别提升 10.34%和 15.83%;相较于使用新闻正文准确率分别提升 1.87%和 2.66%,F1 值分别提升 2.05%和 2.56%,表明文本特征在多模态新闻分类中占据主体地位,文本特征提取器对于整个新闻分类模型具有重要作用。因此,在本文中使用NHTDCF 模块在性能上有一定提升,通过在新闻标题分类的基础上,通过 BiGRU_ATT进一步从新闻正文中提取了丰富的上下文语境信息,为新闻标题中的主题和关键词信息提供了有效的补充。

4.4.2 多模态特征融合

在多模态特征融合研究领域,传统融合方法往往采取较为基础的策略,仅仅通过简单的算术操作加法或乘法来拼接特征,或者是分别对不同模态数据进行训练,并将得到的结果按照一定比例进行加权平均得出最终的分类结果。上述方法虽然在处理多模态数据时具有一定的直观性和简便性,但往往不能充分挖掘和利用各模态数据潜在的深层次信息,也没有考虑各模态间的相互关联、相互补充等特点。基于上述问题,为探索多模态特征深度融合对分类效果的影响,本节在 N10News 和 Z10News 数据集上进行了一系列实验。实验不仅包括未经特征融合的基线情况,还包括传统的特征融合方法及本研究提出的深度融合策略。相关实验结果见下所示。
在这里插入图片描述
在这里插入图片描述
通过特征融合方式对比实验结果得出,仅使用简单相加、相乘的多模态特征融合方法,相较与没有进行多模态融合,即使用单模态的基线模型,在 N10News 数据集上准确率分别提升 1.31%和 1.15%,F1 值分别提升 1.26%和 1.07%;同时,在 Z10News 数据集上准确率分别提升 1.81%和 1.24%,F1 值分别提升 1.82%和 1.05%。表明不使用任何特征融合方法的分类效果是最差的,即便使用简单的算术运算,也可以提高模型的分类效果。在 N10News 和 Z10News 数据集上,BGFMM 融合方法相较于使用相加的融合方式,准确率分别提高 1.08%和 1.36%,F1 值分别提高 1.1%和 1.04%。该实验结果不仅验证了本文所提出的 BGFMM 融合方法的有效性,同时也强调了在处理多模态数据时,进行特征融合的重要性。即无论采取哪种具体的融合技术,多模态特征融合都能增强模型的分类效果。

4.5 不同类别结果分析

为研究新闻数据集中各类别的具体分类效果,本文分别使用 N10News 和 Z10News数据集在 SCLMMFFN 模型上进行测试,其中在 N10News 新闻数据集中的类别具体分类结果如下所示,在 Z10News 新闻数据集中的类别具体分类结果如下所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在 N10News 数据集上,该模型对 Sports、Dance、Real Estate 和 Food 新闻领域的分类效果较好,特别是 Sports 领域,其精确率达到 98.64%,召回率达到 98.67,F1 值达到了 98.65%,其次是 Dance 领域,其精确率达到 97%,召回率达到 97.36%,F1 值达到
97.17%。效果最差的是 Science 领域,其精确率仅为 87%,召回率为 87.31%,F1 值为87.15%。同时,在 Z10News 数据集上,该模型对运动新闻领域的分类效果最好,其精确率达到 98.98%,召回率达到 9912%,F1 值达到了 99.04%,其次是汽车领域,其精确率达到 90%,召回率达到 90.12%,F1 值达到 90.05%。效果比较差的是旅游和教育领域,其中旅游领域精确率仅为 77.10%,召回率为 77.25%,F1 值为 77.17%;教育领域精确率为 77.52%,召回率为 77.61%,F1 值为 77.59%。说明该模型在各类新闻中的分类效果并不相同,如果新闻类别中存在内容交叉,则会对分类的准确性产生影响。

4.6 超参数对模型的影响分析

超参数在模型性能的优化过程中起着至关重要的作用。为了使模型达到最佳表现,通常需要对超参数进行细致的调整。在本节中,我们将深入探讨模型中关键参数在N10News 和 Z10News 数据集上对实验结果的影响。鉴于本模型涉及的超参数众多,本节选择了对模型性能有显著影响的参数进行实验分析,即由图引导的多模态特征和文本引导的多模态特征在融合时的权重分配。实验发现在模型中为上述两个特征分配不同的权重λ对实验结果有着显著的影响。如表 4.17 展示不同权重λ对实验结果的影响。
在这里插入图片描述
在这里插入图片描述
为验证多模态特征融合参数λ对模型性能的影响,本文采用不同的 λ 值进行了一系列实验。实验结果如表 4.17 和图 4.5,随着 λ 值从 0 变化到 1,模型的准确率呈现先上升后下降的趋势,尤其当 λ 设定为 0.8 时,模型在两个数据集上都达到了最高准确率,从而验证了使用图文双向引导的多模态融合特征分类方法优于仅使用单一模态的分类效果。通过进一步分析,在 λ 值设为 0 时,模型的分类准确率最低,在 N10News 和Z10News 数据集上的准确率分别为 78.31%和 56.26%,表明仅考虑基于图片特征引导文本的情况下,模型分类性能最低。相反,当 λ 值取 1 时,模型在 N10News 和 Z10News数据集上的分类准确率提高分别达到了 89.16%和 83.13%,这说明文本特征在整个分类
模型当中有着主体作用,其对模型的影响大于图片特征,文本特征是驱动分类准确率提高的关键因素。通过一系列的实验,我们不仅证实了 BGFMM 模型的有效性,而且还揭示了多模态数据相比于单模态数据在提高模型性能方面拥有更广阔的应用前景,展现出多模态数据在提升新闻分类准确率方面的巨大潜力。

第5章 总结与展望

由于传统的单模态新闻分类方法存在着数据信息的有限与内容的片面。相比之下,多模态学习方法通过整合不同模态的数据,表达出更加准确的语义效果,提高了分类的准确率和鲁棒性。而现有多模态新闻方法大多仅使用简单拼接的方式,没有考虑图文信息的交互关系。基于上述问题,本文提出的基于监督对比学习的多模态新闻分类方法取得了较好效果,主要工作总结如下:
(1)为得到更加有效的新闻文本特征,本文提出一种基于新闻标题与正文的双通道文本特征融合模型。由于传统新闻分类方法往往聚焦于新闻标题的分类或对新闻文本进行直接分类,忽略了标题和正文在新闻文本中扮演的不同角色。本文采用不同的特征提取方式分别对新闻标题和正文进行文本特征提取,以获取标题和正文各自对应的类别概率向量。并通过引入注意力机制对标题与正文输出的类别向量进行加合,得到最终的文本特征向量。
(2)为有效融合多模态特征,本文提出一种基于图文双向引导的多模态融合模型。通过使用联合注意力机制,减少了文本特征和图片特征在融合过程中产生过多的冗余信息,增加了模态间的信息交互,同时通过引入残差连接防止在多模态信息交互过程中重要信息出现丢失,得到最终的多模态融合特征。这种融合策略有效地使用了不同模态之间的互补性、依赖性和一致性,显著增强了模态特征的表示能力。
(3)通过引入监督对比学习,使得在相同标签下新闻类别更加靠近,而不同标签下的新闻类别更加远离,增强模型学习在相一标签下新表征的能力。通过对比损失和分类损失共同构建模型的损失函数,使模型能够综合考虑样本的相似性和分类任务的需
求,达到更好的优化效果。
(4)本研究通过在 N10News 和 Z10News 数据集上进行大量的对比实验,来验证SCLMMFFN 模型的性能。与同类分类方法中表现最优的 MCAN 相比,SCLMMFFN 模型在 N10News 和 Z10News 数据集上的准确率分别 1.47%和 2.13%,F1 值分别高出 1.47%和 1.9%。不仅证明了 SCLMMFFN 模型的有效性,而且通过消融实验、类别分类和混淆矩阵结果分析以及超参数的影响研究,进一步验证了该模型的合理性和可靠性。

第6章 致谢

时光荏苒,三年的研究生生涯已悄然逝去,回首这段时光,我收获了知识、提升了能力、丰富了阅历,这一切都离不开导师的细心指导、同窗的帮助和家人的支持。首先,我要衷心的感谢**老师在我学业和生活上的关心,在技术上给予我的帮助,对我毕业论文的悉心指导,给我提出了许多宝贵的建议,在此衷心感谢老师对我的教育与栽培。其次,感谢实验室的每一位同窗,感谢你们在科研与生活中给予我的帮助与欢乐。同时,我也很高兴能够结识 728 的好兄弟们,感谢你们在生活中给予我的关心和帮助,让我收获了无比珍贵的友谊。最后,感谢我的父母和姐姐,正是你们的默默付出,为我提供了优越的生活条件,是我最坚实的后盾,也是我心中最温暖的港湾。回头看,轻舟已过万重山,希望我能永远做一个眼里有光,脚下有路,心中有梦的人。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值