论文阅读：在开放域web关键词抽取中引入多模态信息

Y.zzz

已于 2023-07-24 17:27:39 修改

阅读量966

点赞数 2

分类专栏：论文笔记文章标签：论文阅读算法

于 2020-11-27 11:31:39 首次发布

本文链接：https://blog.csdn.net/qq_41180996/article/details/110223604

版权

论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在开放域web关键词抽取中引入多模态信息

摘要
1.介绍
2.相关工作
- 2.1开放域Web关键字提取的发展
- 2.2神经关键短语提取方法
3.模型
4.实验方法
5.实验结果
- 5.1评价结果
- 5.2关于视觉特征的案例研究
6.结论和未来的工作

【论文标题】Incorporating Multimodal Information in Open-Domain Web Keyphrase Extraction（在开放域web关键词抽取中引入多模态信息）
【作者团队】Yansen Wang, Zhen Fan, Carolyn P. Rose
【发表时间】2020/11/01 EMNLP2020
【论文链接】https://www.aclweb.org/anthology/2020.emnlp-main.140.pdf
【核心】多模态在信息抽取中的应用
【任务】Given a document produce the top 3 most salient keyphrases（给定一个文档产生最重要的前3个关键短语）
【推荐理由】
本文来自卡内基梅隆大学，发表于EMNLP2020。文章提出了一种融合多模态信息进行开放域关键词提取的模型，模型在相关数据集上取得了SOTA的结果。
网页上的开放域关键短语抽取（KPE）是一项基础而复杂的NLP任务，在信息检索领域有着广泛的实际应用。传统的KPE任务大多基于普通文本类型，即只能利用文本这一种模态信号。而网页旨在方便用户导航和信息查询，因此从设计上遵循固定的策略，如字体大小、格式、布局等视觉信息。基于此，作者设计了一个基于多模态的web开放域关键短语抽取模型，该模型整合了文本和视觉等多模态信息，相比传统使用单模态信息的模型取得了更好的效果。

摘要

开放域关键短语抽取（KPE） 是一项基础而复杂的自然语言处理任务，在信息检索领域有着广泛的实际应用。与其他文档类型相比，web页面设计的目的是便于导航和查找信息。有效的设计编码在布局和格式信号，指出哪里可以找到重要的信息。在这项工作中，我们提出一种建模方法，利用这些多模态信号，以帮助在KPE任务。特别是，我们在微观层次上利用词汇和视觉特性(例如，大小、字体、位置)来实现有效的策略归纳，在宏观层次上描述页面的元级特性来帮助策略选择。我们的评估表明，在KPE任务中，有效的策略归纳和策略选择方法的组合优于现有的模型。定性的事后分析说明了这些特性是如何在模型中发挥作用的。

1.介绍

提出了一种新的多模态关键字提取方法（KPE），即从给定的文档中自动提取关键字短语。KPE任务是一项基础性任务，在许多信息检索(IR)任务中起着促进作用，包括分类、摘要和文档索引(Hasan和Ng, 2014)。特别地，KPE任务要求准确地选择最能捕捉web文档主题的短语。性能良好的方法利用文档结构和实体的共同出现。

在这个领域的工作历史中，有各种各样的基准(Medelyan and Witten, 2002; Nguyen and Kan, 2007; Wan and Xiao,2008; Meng et al., 2017)和大量non-neural(Grineva et al., 2009; Liu et al., 2009, 2010)和 neural模型方法 (Meng et al., 2017; Zhang et al., 2017; Chen et al., 2018)。最早的KPE方法主要局限于特定领域的关键字提取。最近发布的OpenKP (Xiong et al.， 2019)是专门为开放域web页面关键字提取开发的大规模特征丰富的数据集，鼓励了与KPE任务相关的进一步研究。该数据集的一个新特征是包含了与视觉属性相关的特征。

文字的视觉属性和网页布局至少在两个方面提供了KPE模型实用程序。首先，微观层面的特征作用于单词层面，包括词汇特征以及与单词的大小、字体、颜色和位置相关的特征，表示单词在延伸文本中的相对重要性。直观地看，用彩色、粗体或更大字体高亮显示的文本，或者放在网页中更明显的地方的文本，更有可能是重要的，并相应地给予较高的概率作为关键词。其次，描述页面布局和类型的宏观层面特征(如新闻、店面等)与关键词的分布有关。例如，对于一个新闻或博客网站，其主要内容的标题或第一段可能是寻找关键短语的位置，而对于一个索引页面，关键短语更可能在列表中找到。重要的信息也可以列在图片的下面或旁边。

【微观特征：单词层面，词汇特征、单词大小、字体、颜色、位置】
【宏观特征：页面布局和类型，新闻/博客网站/店面，关键短语在标题、第一段、索引列表】

基于这些见解，我们提出了一个基于策略的多模态关键字提取架构(SMART-KPE)，通过两个步骤解决web KPE任务:多模态策略归纳法通过精细使用微观特征来应用特定的提取策略，而策略选择则可以使用宏观特征从不同策略中选择结果。

在我们的评估中，我们将SMART-KPE与几个最先进的基线进行比较，其中SMART-KPE显示了其更好的定位和提取关键短语的能力。我们提供事后案例研究和消融研究来说明模型的优缺点。除了对KPE任务的SOTA基线进行改进之外，据我们所知，基于策略的关键字提取多模态架构是开放域KPE中对多模态最全面的处理。

2.相关工作

2.1开放域Web关键字提取的发展

最初，概念“keyphrase”最初是由科学论文的作者们使用的，他们认为可以用一些短语来最好地总结他们的论文(C ¸ ano and Bojar, 2019)。第一个用于自动关键字提取的语库同样是从科学领域的出版物中组装而成的，这些出版物包括技术报告、论文摘要和科学论文。直到今天，由于这类数据的充足可用性，科学出版物仍然是神经KPE方法的基本固定域基准。然而，实验表明，直接在此类语料库上训练的KPE方法不能很好地推广到其他网络相关体裁或其他类型的文档中，在主题、内容和结构上可能有更多的异质性，关键短语可能出现的位置也可能有更多的差异。

以往的研究者在互联网和社会媒体环境中收集了KPE的语料，包括网页、博客、电子邮件、新闻文章和live chats ，但由于数据稀疏性和话题分布缺乏代表性，这些现有的语料库在神经模型的鲁棒模型训练方面都存在类似的问题。最近发布的OpenKP (Xiong et al.， 2019)是第一个主题域分布广泛的大型KPE数据集。这个最近的dataset简化了模型泛化的工作，并提供了开发细微差别模型的机会，这些模型可以根据应用到的文档类型调整它们的性能。数据集的这一属性启发了我们提出的方法，其中策略是根据检测到的文档类型使用宏级特征来选择的。

2.2神经关键短语提取方法

最早的神经KPE模型将KPE任务视为标准的编解码器（encoder-decoder）任务，首先使用RNN或CNN 对输入进行编码，然后对预测的关键字进行解码。这些早期的方法被严格限制为文本数据表示。
OpenKP的发布(Xiong et al.， 2019)为多模态KPE的研究带来了机会。OpenKP现在是MS-MARCO最近增加的一个分支(Nguyen et al.， 2016)，它拥有一个公共的KPE任务排行榜，由微软负责。它基于Web数据构建，作为开放域神经关键字提取的第一个大规模基准。除了提供每个文档的原始文本之外，OpenKP还包括与每个文本术语相关的各种可视化特性，如位置、大小、字体等。除了OpenKP, Xiong等人(2019)还提出了BLING-KPE，这是首个使用视觉特征和文本提取开放域关键字短语的神经模型基线。BLING-KPE首先通过以下连接为每个术语生成混合嵌入：
(1)该术语的ELMo (Peters et al.， 2018)表示，
(2)标准正弦位置嵌入(V aswani et al.， 2017)，
(3)OpenKP数据集中该术语20个可视特征中的18个。

它使用多个cnn对n个网络进行建模，并利用变压器(V aswani et al.，2017)层和前馈层进行评分。该方法是多模态KPE的首次尝试。

最近，Sun等人(2020)在OpenKP任务上取得了更大的成功，他们将关键词提取建模为多个传统文本任务，包括序列标记、分块、显著性排序等。在这项工作中，我们采用了将KPE建模为序列标记任务的想法，五个标记中的一个被分配给每个文档术语:NOn关键字，关键词的开头单词，关键字词的中间单词，关键字词的结尾单词，Uni-word关键词。然而，尽管最近对这个新提出的数据集进行了多次努力，但迄今为止在multimodal KPE中发表的研究要么忽略了可用的特征(Sun等人，2020年)，要么采用强力方法进行特征编码(直接将原始特征连接在一起)(Xiong等人，2019年)。因此，在这项工作中，我们努力寻求一种更细致的方法来利用多模态KPE的可用特性，并提供一种独特的综合方法。

3.模型

3.1任务定义

这里我们将web页面设置下的关键短语提取任务(KPE)形式化:
给定一个文档D = {W, V, M}，我们的目标是找到单词的子序列集合S ，其中Si是从文档文本中提取的关键短语，它们是最突出和最能代表文档关键点的。
在这里插入图片描述我们采用Sun的方法，其中KPE建模为一个文本项w的序列标注问题。对于给定的文档，每个文本项从五个标签中指定一个:即{O, B, I, E, U}，分别代表：
O——nOn keyphrase,
B——Begin word of the keyphrase,
M——Middle word of the keyphrase,
E——End word of the keyphrase
U——Uni-word keyphrase

3.2模型结构

我们将web KPE任务分为两个步骤:
多模态策略归纳，具体策略应用于微观层面的多模态特征;
策略选择，宏观层面特征用于选择与当前页面形式匹配的最佳可用策略。
设计了基于策略的关键短语提取多模态结构(SMART-KPE)，扩展了序列标记基础。
图1说明了SMAR-TKPE的架构。具体来说，它包含三个组件:单模态编码器、多模态预测器和元特征构造器

①多模态策略归纳

这一步，从（KPE任务可用的微观特征的）选定子集中学习策略，具体来说，我们的模型首先在单模式编码器中分别对文本和视觉特征生成Contextualized embeddings。这些embeddings被融合，并随后在多模态预测器中输入到几个不同策略特定的序列标记网络中，每个网络生成每个携带的可能标记的独立的概率分布。

Unimodal Encoder 单模式编码器的设计是基于文本和视觉模式，建立每个术语的多模态表示。我们使用一个预先训练过的未封装的BERT模型来生成上下文的术语嵌入。类似地，我们使用一个单独的transformer描述视觉特征。这可以表述为:

在这里插入图片描述

wi：上下文嵌入
vi:对wi单词的视觉嵌入
w [CLS]：CLS的Bert表示

我们稍后在元功能构造函数中使用它作为整个文档的表示。
我们使用两种直觉来处理视觉特征。首先，与文本类似，视觉特征可以根据页面的上下文实现完全不同的视觉效果: 一个字体大小为20的单词可能在一个网页中常用，而在另一个网页中可以标记最大的单词。二是视觉形态特征和文本形态特征的行为和特征不同。因此，第一步的self-attention应该在分别针对文本和视觉特征的网络中建模。
在Unimodal Encoder结尾，文本和视觉嵌入被连接在一起，作为最终表示，并与另一个transformer完全融合：
在这里插入图片描述

Multimodal Predictor 多模态预测器由代表N种不同提取策略的N个标记预测器组成。每个预测器取Eq. 4给出的文本嵌入和可视化嵌入，使用2层前馈网络独立生成第i项的标签分数分布Pi,k：
在这里插入图片描述

请注意，此处所有策略都是隐式定义的，这意味着我们不会引入任何与页面类型识别相关的人工分配先验。相反，我们允许页面类型上的潜在信息浮现出来，并在网络的学习过程中通过优化发现不同的策略。这就避免了耗时的标签过程，也减少了从认知角度来看直觉型的类型可能在优化中无法提供效用的风险。

②策略选择

元特征构造函数对宏级元特征进行编码，对多模态预测器中的预测因子进行加权选择，以获得整体的序列标注结果。在本工作中，我们使用了以下几种宏观级元特性:
Whole-Text Representation （全文表示）使用在这里插入图片描述
在单模式编码器中，用BERT模型的[CLS]标记的表示，作为含网站文档和标题的整体文本表示。

Snapshot（快照）使用Resnet-152从原始网页的快照中提取的可视化嵌入。这是我们工作的一个新方面，它为模型提供了识别网页整体布局和外观特征的机会。
该架构被设计为灵活地包含更多带有额外数据或者资源的元特征。将所有的元特征在一个元特征嵌入内连接，然后使用前馈网络生成一个标准化的n维选择器向量:
在这里插入图片描述

我们使用选择向量sk作为多模态预测器中N序列标签预测器的权值来生成总体概率（每个标签被分配到一个项的）。
在这里插入图片描述

pi,T：文本项i被标记为tag T ∈ {O, B, I, E, U}的概率

3.3训练和关键短语预测

SMART-KPE模型采用逐项交叉熵损失（term-wise cross-entropy loss）的端到端方式进行训练:
在这里插入图片描述

yi: 根据单词与黄金关键词的关系，yi为单词wi的正确标签。

对于关键字预测，SMARTKPE对每个词的标签概率分布进行预测后，计算出每个词的得分如下:
在这里插入图片描述
使用最小池，以使关键字以可比较的方式处理，而不考虑长度。

4.实验方法

4.1数据集

我们将OpenKP设置为任务的主数据集。OpenKP由来自Bing搜索引擎的约150K文档组成，这些文档中没有限制原始web页面的域和类型。

每份文件的资料如下:
URL: 链接到各自的网页
Text: 被清洗的文档正文
Visual DOM features:文本对应的视觉特征的一组向量，如表所示。

给定数据集中的每个文档的关键短语，由专家注释者标记，每个文档指定1-3个关键短语。作为需求，所有的关键短语都出现在原始文档中。OpenKP的详细统计信息如表所示。

在原始数据集中，除了网站URL，没有提供元特征。我们下载了每个网站的标题，并将标题与清洗后的正文连接起来作为我们模型的文本输入，我们还在谷歌Chrome浏览器中对页面进行了快照snapshot，显示尺寸为600×800，所有元素都缩小到50%，以便更全面地浏览这个网站。

4.2基线和评估指标

我们将SMART-KPE与以下OpenKP数据集基线进行比较。
为了评估我们生成的关键词，我们遵循官方的MS-MARCO指南和评估代码3。检索指标包括精度、召回率和位置1、位置3、位置5的F1，其中以F1@3为主要指标。

4.3实现和训练细节

Pytorch
用于训练SMART-KPE的参数如下表：
在这里插入图片描述

5.实验结果

5.1评价结果

在OpenKP数据集上的实验结果列在表3中。我们在完整的SMART-KPE模型和其3个变体上进行实验，其中仅应用微观级别的可视化特性(SMART-KPEMicro)，仅应用宏观级别的元特性(SMARTKPE-Macro)，两组特性(SMARTKPE-Skeleton)均未应用。我们看到基于伯特的SMART-KPE的所有变体在所有指标上都优于BERT2Tag和BERT2Joint，表明特征构建和策略选择的有效性。

F1@3是这项任务的主要度量标准。
SMARTKPE-Full是完整的模型和骨架，微观和宏观分别表示不引入附加功能、只引入微观层次的视觉功能或只引入宏观层次的功能。
SMART-KPE+R2J是我们的完整模型，配备了最先进的提取方法(RoBERTa2Joint)。

进一步探讨了不同类型的特征在提取关键词时的作用。即使没有使用微观级的可视化特性和宏观级的元特性，SMART-KPE-Skeleton也比基线性能要好。这是由于添加了标题信息以及更有效的模型结构。随着在SMART-KPE-Skeleton上添加每个多模式特征组件，我们观察到进一步的改进，而完整的模型是最佳组合。该分析揭示了元特征的使用和执行策略选择的分别作用和联合作用，从而形成了一种完整的关键短语提取方法。

我们还将单模态编码器中的BERT改为RoBERTa，并将多模态预测器中的预测器从标记法改为联合提取法，以便与基准进行比较，获得最佳性能RoBERTa2Joint。实验结果列在表3的最后两行。基于roberta的SMART-KPE在所有指标上都优于基线模型和SMART-KPE- full，进一步证明了我们的模型的灵活性，可以从更高级的基于文本的提取骨干中获益。

5.2关于视觉特征的案例研究

我们通过表中OpenKP验证集中的3个案例来演示引入微观可视特性的效果。我们给出了SMART-KPESkeleton(只使用文本特征的SMART-KPE)和完整的SMART-KPE模型的预测结果。原始web页面的快照如图2所示。
案例1和案例2展示了微观视觉特性如何帮助找到正确的关键词。在第一种情况下，所有的关键词都在网页的中间部分，比其他不同颜色的词更明显。全模型成功地利用了微观层次的视觉特征，将重点放在了所有的关键词上，而骨架模型在第一段“Lyrics”中选择了主题词，导致错误。
在这里插入图片描述

另一方面，案例#3展示了一种典型的网页，其中的视觉特性可能会引起误解:索引页面。在这种页，字号更大的和粗体的的大多是详细的内容，而那些总结性的话有时隐藏在小内容上，容易被忽略，但是更有可能成为关键短语。
在这里插入图片描述

6.结论和未来的工作

在本研究中，我们提出一种基于策略的多模态关键字提取架构(SMART-KPE)，作为一种新的多模态网页关键词提取方法。与传统的主要以文本为中心的关键词提取模型不同，SMART-KPE具有结合其他模式来帮助关键字定位和显著性预测的优点。由于引入了多模态信息，我们提出的模型的性能优于一些最先进的基线。通过几个案例研究，我们进一步说明微观和宏观层面的特征如何导致模型的正确或不正确的选择。

作为引入策略选择的宏观级元特性的第一次尝试，我们相信有很大的潜力来改进和改进我们的方法。一个高层次的想法是在基于经验的网页聚类的选择器模型上增加进一步的监督，以更好地训练模型开发出一套更清晰的关键字预测策略，并更有效地调整各选择器的权重。我们还计划添加更多类型的元特性，以生成更丰富的多模式表示。此外，该SMART-KPE framework可以很容易地适应其他NLP任务，我们相信，SMART-KPE与不同的模型相结合有很大的潜力，可以进一步提高opendomain KPE和其他网络相关任务的性能。

Y.zzz

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
论文阅读：在开放域web关键词抽取中引入多模态信息

开放域关键短语抽取（KPE）是一项基础而复杂的自然语言处理任务，在信息检索领域有着广泛的实际应用。与其他文档类型相比，web页面设计的目的是便于导航和查找信息。有效的设计编码在布局和格式信号，指出哪里可以找到重要的信息。在这项工作中，我们提出一种建模方法，利用这些多模态信号，以帮助在KPE任务。特别是，我们在微观层次上利用词汇和视觉特性(例如，大小、字体、位置)来实现有效的策略归纳，在宏观层次上描述页面的元级特性来帮助策略选择。我们的评估表明，在KPE任务中，有效的策略归纳和策略选择方法的组合优于现有的模型
复制链接

扫一扫

专栏目录