2022年ccks评测任务论文学习——任务2:优质文章评测——High Quality Article Recognition Based on Ernie and Knowledge Mapping

2022年ccks任务二:优质文章评测

摘要:

  1. 摘要中说到随着时代的发展,各种各样的文章涌现,因此如何给读者最合适的文章成了需要解决的问题,这也是这个任务提出想要去解决的。
  2. 作者主要使用以下几个方法:
    1. Ernie预训练模型
    2. 文章标题-知识图-部分文章内容的建模方法
    3. 利用伪标签数据集
  3. 最终在B榜的分数达到82%的得分。

1. 介绍

  1. 介绍的第一部分还是对现状的分析,同摘要一样,并且也说明了2022ccks提出这个任务的目的,引入知识图去解决这个问题。
  2. 作者对数据集进行了一下分析,数据集是来自百度的BaiduBaijia,即国内的一个文章主流平台。数据集中有1w+的文章,数据集提供了以下的标签,标题,主体,是否是高质量文章和相匹配的知识图信息:

image.png
8000+为训练集,1000+为榜A,1000+为榜B。(但是看了任务书好像数据集只有6000条,5000条是训练,验证集和测试集各500条)

  1. 主办方有给出对文章是否优质的评判标准,共有以下七条:image.png
  2. 作者让专业的标注师对这七个维度进行分析,并且构建出了决策树(acc:0.98)。决策树给出了这七个维度的贡献信息。
维度名贡献值
切题0.172
文字质量0.076
直观易懂0.157
多方、多角度0.099
背景信息丰富0.13
时效/创意0.267
积极乐观0.099
  1. 通过以上7个维度的信息最终得出这篇文章是否优质,这也是任务需要解决的问题。(具体的评判标准是随着任务数据集的发出而给定的)

2. 相关工作

  1. 作者提出目前的深度学习文本分类方法在从数据中可挖掘的信息量上存在一定的局限性,模型的泛化能力和鲁棒性不足。
  2. 为了解决这个问题,引入了知识图的方法,知识图是一个结构化信息呈现系统,其有用复杂的结构化信息。并且已经被应用在了搜索引擎、问答系统和其他领域。其知识图的引入给模型提供了额外的信息,能够让模型拥有理解和联系的能力,并且提高模型的泛化能力。

3. 文章数据

  1. 作者对文章的各个维度进行表征,提出了知识图增强增强文章质量的数据集(kgea)。

KE-QI: A Knowledge Enhanced Article Quality Identification Dataset 这是作者参考的原文,https://arxiv.org/abs/2206.07556

  1. 作者对上述这篇文章进行了一个简述,即他们是怎么去评判的。即他们通过相关工具提取特征,利用文章与百度百科全书之间实体的共现,为每篇文章构建知识地图。(这是KE-QI文里的)
  2. 并且说明了下,那篇文章里的作者使用了四个模型:Bert、GCN、Ernie1.0和k-bert,最终发现GCN效果最好。验证集和测试集的F1达到了0.776和0.734。

4. 方法

总的来说这篇文章的技术就是多个模型的综合,分配了不同的权重实现了一个模型的融合,最终得到结果。

  1. 文中介绍了ERNIE模型的好处,它是一个基于知识增强的持续学习语义理解框架。其结合了大量的数据和富文本。
  2. ERNIE通过持续学习技术,从海量文本数据中不断吸收词汇、结构、语义等知识,实现模型效果的持续进化。因此,作者使用基于Transformer(主要是ERNIE)的预训练模型,并采用微调模式。并且采用了PaddleNLP构建的tokenizers用来做词汇表的转换。

4.1 summary

  1. 作者先对自己实验过程做了一个总结。首先,利用内容建模对Roberta、Ernie和Nezha的预训练模型进行训练预测,然后对预测结果进行加权并作为伪标签融合到训练集中。最后,利用文章标题知识图部分文章内容的建模方法,使用Ernie预训练模型进行训练,然后选择损失最小的模型进行预测。最终的效果非常显著。流程图如下图所示:

image.png

4.2 文本处理

  1. 一条数据的结构包括了文章的链接,标题,发表时间,内容和文章的实体集合。所以写了一些提取的语句(看任务中应该是json格式的数据,可以用json库load进去提取即可),删除了文章内容中的
    字符。
  2. 由于Ernie等预训练模型所能处理的最大文本长度为512,为了让模型在训练过程中学习到更多的特征,作者选择在文章内容、知识图和文章标题结合后进行最大分割。同时,作者还做了一些操作,如删除文章中所有的标点符号,为后续的实验打下坚实的基础。

4.3 文本分类模型

作者在这一段介绍了所使用的Ernie、Nezha和Roberta模型。

  • Ernie:Ernie是一个基于知识增强的持续学习语义理解框架。它摒弃了bert中单词的mask,而采用实体级别或者短语级别的mask掩码机制。从而吸收了大量关于文本数据的词汇、结构、语义等方面的知识,实现了模型效应的不断演化。
  • Nezha:其是一个基于transformer的预训练模型。结构和bert相似,但是它修改了bert中的绝对位置编码,而采用相对位置编码。Bert模型有绝对的位置编码,但是大多数时候数据的长度相对于模型的最大长度来说太短了,所以不能完全训练出后面位置的位置向量。Nezha模型考虑了符号之间的相对位置关系,可以更好地学习到字符之间的关系。
  • Roberta:其是在Bert模型的基础上进行改进,调整为最优Bert模型。主要是修改Adam的超参数,增加混合精度,将静态掩码改为动态掩码,增加批大小,训练序列的长度。

作者采用的三个模型的版本分别是:ernie-1.0、nezha-large-wwm-chinese和roberta-wwm-ext-large。在高质量文章的识别中,三种预训练模型在中文长文本数据集的处理以及对语义结构和内部逻辑的理解方面都有相应的优势。

4.4 模型融合和评估

  1. 在不同的建模方法中,作者选取了性能较高的模型,经过对单个模型的不断训练和优化,将它们融合在一起。作者首先评估了文章内容建模下Roberta、Ernie和nezha预训练模型预测结果的相关性,发现Ernie的预测结果比其他两个预测结果性能更好,相关系数更低。最后,作者采用权重为1:2:1的加权融合,得到了新的预测结果。
  2. 在模型评估上,采用cross entropy function作为loss计算,并且每300个step去打印一次loss、accuracy和recall rate并且保存模型。

4.5 评价指标

作者在这个部分对precision(P)、recall(R)以及F1进行了一个介绍,简单说P就是分类正确的占比于全部的样本,R就是分类正确的占比所有正确的值。而F1就是两个公式的harmonic average。计算公式如下:
F 1 = 2 P R P + R F1= \frac{2PR}{P+R} F1=P+R2PR

5. 实验

  1. 在任务书上官方只是给出了7个维度的评判标准,但是具体的信息是随着数据集的给出而定的标准,而这个标准就是在第二部分提到的data papers的那篇论文。
  2. 在考察竞赛任务的相关要求和数据集格式后,作者首先选择重现数据集论文的部分数据结果,然后对未经处理和处理过的文章内容进行建模,并对文章标题-知识图-部分文章内容建模、多模式融合等实验进行了研究。
  3. 基于文章标题-知识图-部分文章内容建模的相关实验数据结果如下:

image.png

  1. 超参数:

image.png

6. 实验结论

基于大量的实验发现,如果不适用知识图建模,那么训练模型的稳定性会比较差,作者在最后使用了0.779的加权融合结果。只根据知识图建模和预测的效果(与数据集论文相比)就很难进一步提升。因此根据论文的相关性来判断优质文章,我们在数据集处理中采用了文章标题知识图谱的建模方法,并采用多模式融合的伪标签数据集方法,使得模型结果取得了较好的效果。

7. 阅读收获

对于这篇文章,其实作者核心就是作者做了数据的抽取,然后使用了三个模型,发现ernie效果较好,因此调整了权重,从而做了三个模型的结果融合,但是在最终的伪标签数据集方法并没有做过多的提示。对此任务有进一步的收获和了解需要结合 KE-QI: A Knowledge Enhanced Article Quality Identification Dataset 这一篇文章。
在以后的任务中,其实很多模型都有自己擅长之处,所以多学习如何融合模型,可能会在某个方向上有所收获。

nlp小白的阅读,如有不对欢迎指正

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值