此文档包含的嵌入内容可能对您的计算机有害_新尝试！将知识图谱和元数据嵌入BERT，文本分类准确性提升...

最新推荐文章于 2021-07-31 17:59:01 发布

weixin_39635567

最新推荐文章于 2021-07-31 17:59:01 发布

阅读量690

点赞数

文章标签：此文档包含的嵌入内容可能对您的计算机有害

近日，康斯坦茨大学的研究者提出了一种通过知识图谱嵌入和其他元数据来丰富BERT的方法。

利用Wikidata基础的链接知识可以提高文本分类任务的性能。通过这种方法，研究者将标准BERT模型的准确性提高了四个百分点。此外，研究者的结果表明，与纯文本方法相比，使用特定于任务的信息（例如作者姓名和出版物元数据）可以改善分类任务。尤其是，当元数据功能的开发工作不那么琐碎时，从外部知识源（如Wikidata）添加额外的任务信息将大有帮助。

论文中，研究者主要关注使用简短描述文本(封面简介)和附加元数据对图书进行分类。

在BERT(一种深度神经语言模型)的基础上，研究者演示了如何将文本表示与元数据和知识图嵌入(编码作者信息)结合起来。与标准的BERT方法相比，研究者在分类任务上取得了更好的结果。

对于使用8个标签的更粗粒度分类，研究者得到F1-分数为87.20，而使用343个标签的详细分类得到F1-分数为64.70。

以下是论文具体内容：

随着可用数据量的不断增加，需要提供工具以加速处理，并最终使这些数据变得有意义。

因为从给定输入中提取含义到细节级别的全自动工具还没有开发出来，所以这项任务仍然受到监督，而且通常(部分)要由人来解决;研究者把这些人称为知识工作者。知识工作者是专业人士，每天必须处理大量的数据，并对其进行整理、准备和处理。

这些数据可以来自高度多样化的门户和资源，并且根据类型或类别，需要通过特定的下游处理管道来传输。

研究者的目标是为内容管理技术创建一个平台，该平台可以处理不同来源的此类数据，并且为特定内容类型和体裁制定自然语言处理(NLP)管道，从而使初始分类成为一项重要的子任务。

在论文中，研究者使用2019年GermEval共享任务的数据集进行分层文本策展分类，并使用预定义的标签集来评估用于此分类任务的方法。

深度神经语言模型已经成为一种成功的文本表示方法。特别是，在各种NLP任务上，来自Transformers的双向编码器表示，都大大优于以前的最新方法。研究者采用BERT进行基于文本的分类，并使用共享任务的上下文中提供的其他元数据扩展模型，例如作者、发布者、发布日期等。本论文的一个关键贡献是使用最先进的文本处理方法包含额外的(元)数据。 BERT是一种深度神经语言模型,作为一种迁移学习方法，它为使用外部知识的任务解决方案提供了便利，以便在相对较少的训练数据可用的情况下进行设置。更准确地说，研究者使用基于Wikidata的知识图嵌入来丰富BERT，作为预先训练的文本表示模型，添加共享任务组织者提供的元数据(标题、作者、发布日期等)，并为这个特定的文档分类任务收集关于作者的附加信息。由于研究者不仅依赖于基于文本的特性，还利用了文档元数据，所以这是一个文档分类问题。所提出的方法是尝试解决此问题的范例，用于共享任务的组织者提供的单个数据集。

作者嵌入

尽管不应以封面来判断一本书，但研究者认为，其他有关该作者的信息可以支持分类任务。作者通常会坚持其特定的写作风格，并且可能专门研究特定的体裁。确切地说，研究者希望包括作者身份信息，可以通过从Wikidata知识图中选择特定属性（例如出生日期，国籍或其他传记特征）来检索作者身份信息。但是，这种方法的缺点是必须手动选择和过滤可提高分类性能的属性。这就是为什么研究者采用一种更通用的方法，并利用自动生成的图形嵌入作为作者表示。

图1：Franz Kafka（带有PCA的3D投影）的Wikidata嵌入的可视化。原始200D空间中最近的邻居：Arthur Schnitzler，E.T.A Hoffmann和Hans Christian Andersen。图嵌入方法为每个节点创建了密集的矢量表示，以便这些矢量之间的距离可以预测图中边缘的出现。节点距离可以解释为相关作者之间的主题相似性。研究者依赖于基于PyTorch BigGraph的预训练嵌入。图模型是在完整的Wikidata图上训练的，使用一个翻译算子来表示关系。图1显示了作者嵌入的位置。为了得出作者的嵌入内容，研究者查找了与作者名称相匹配的Wikipedia文章，并将这些文章映射到相应的Wikidata items 7。如果一本书有多个作者，则使用第一作者的嵌入方式。按照这种方法，研究者能够检索训练和测试集中72%书籍的嵌入式(见表1)。

关于数据集的附加数据的可用性

模型架构

图2：实验中使用的模型架构。文本功能通过BERT进行馈送，与元数据和作者嵌入相结合，并组合在多层感知器（MLP）中

如图2所示，神经网络架构类似于原始的BERT模型，并将文本和非文本功能与多层感知器（MLP）相结合。

BERT架构使用了12个隐藏层，每个层由768个单元组成。为了从文本特征中派生出互文表示，将书名和简介连接起来，然后通过BERT输入。为了最小化GPU内存消耗，研究者将输入长度限制为300个令牌(这比BERT硬编码的512个令牌的限制要短)。训练集中只有0.25%的导语超过300个单词，所以cutoff产生的影响较小。

非文本特征是在单独的预处理步骤中生成的。元数据特征被表示为一个十维向量。作者嵌入向量的长度为200n，下一步，将这三种表示方式串联起来，传递到一个两层的MLP中，每层1024个单位，再加上ReLu激活函数。在训练过程中，MLP需要学习输入表示的非线性组合。最后，输出层进行实际分类。在SoftMax输出层中，每个单元对应一个类标签。对于子任务A，输出维度为8。将子任务B视为一个标准的多标签分类问题。因此，子任务B的输出层有343个单元。

当输出单元的值超过给定阈值时，将预测相应的标签，从而为每个类分别定义阈值。在0 ~ 1的区间内，将阈值按0.1的步长变化来得到最佳值。实验结果训练执行以批处理大小b = 16，dropout概率 d = 0.1,学习速率η= 2−5(Adam优化器)和5次训练迭代进行。这些超参数是Devlin等人提出的用于BERT微调的超参数。除了单独优化每个类别的分类阈值之外，没有进行超参数优化的实验。所有实验都在GeForce GTX 1080 Ti (11 GB)上运行，因此单个训练周期最多需要10分钟。如果单个标签的预测概率没有高于分类阈值，则使用最常用的标签作为预测。基线为了与相对简单的基线进行比较，，研究者从scikit-learn实现了Logistic回归分类器链。此基线仅使用文本将其转换为TF-IDF向量。与BERT模型一样，它对子任务A执行8类多标签分类，对子任务B执行343类多标签分类，忽略了标签的层次性。

表2：关于用于分类的特征的验证集的评估得分（微平均值）。具有BERT-German，元数据和作者嵌入的模型在两个任务上均获得最高的F1分数，因此已提交给GermEval 2019竞赛。最后一行的分数是Remus等人在2019年报告的测试结果。

表2显示了研究者的实验结果。根据共享任务的规定，基本的评价指标是微平均f1分。本文报告的所有得分都是使用在训练集上训练的模型和在验证集上评估的模型得到的。

对于共享任务竞赛的最终子任务，使用在训练集和验证集组合上的最佳得分设置并进行训练。研究者证明，合并元数据特性和作者嵌入可以为两个子任务带来更好的结果。

任务A的F1得分为87.20，任务B的得分为64.70，使用带有元数据特性和作者嵌入的BERT-German的设置，性能优于其他所有的设置。

只看精度得分，BERT- German有元数据特性没有作者嵌入，其性能表现最佳。与基线相比，评估表明，在输入相同的情况下(仅使用title10和blurb)，BERT深层transformer模型的性能远远高于传统的TF-IDF方法。BERT-German和BERT-Multilingual仅使用基于文本的特性(标题和简介)，其中BERT层的文本表示形式直接输入到分类层。为了建立作者嵌入的信息增益，研究者在作者嵌入的基础上训练了一个线性分类器，并以此作为唯一的特征。仅作者模型可在使用作者嵌入的书籍上进行评估，因此数字基于稍小的验证集。然而，正如性能最佳的设置结果所显示的，作者嵌入中包含的信息有助于提高性能。当仅针对该作者嵌入的书籍评估最佳模型时，研究者发现F1分数有进一步的提高(任务A:从87.20提高到87.81;任务B: 64.70到65.74)。