基于BERT-PGN模型的中文新闻文本自动摘要生成——文本摘要生成（论文研读）

最新推荐文章于 2025-04-16 15:55:23 发布

椒椒。

最新推荐文章于 2025-04-16 15:55:23 发布

阅读量4.9k

点赞数 3

分类专栏：自然语言处理文章标签： bert 深度学习人工智能

本文链接：https://blog.csdn.net/qq_38978225/article/details/129361343

版权

自然语言处理专栏收录该内容

56 篇文章

订阅专栏

该文提出了一种基于BERT-PGN的中文新闻自动摘要模型，利用BERT预训练模型和多维语义特征增强上下文理解，通过指针生成网络减少重复内容，实现在NLPCC2017数据集上摘要效果的提升，特别是在Rouge-2和Rouge-4指标上有1.5%和1.2%的提升，证明了模型的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于BERT-PGN模型的中文新闻文本自动摘要生成（2020.07.08）

摘要：

针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题，基于BERT 和指针生成网络（PGN），提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络（BERTPGN）。首先，利用 BERT 预训练语言模型结合多维语义特征获取词向量，从而得到更细粒度的文本上下文表示；然后，通过 PGN模型，从词表或原文中抽取单词组成摘要；最后，结coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议（NLPCC2017）单文档中文新闻摘要评测数据集上的实验结果表明，与PGN、伴随注意力机制的长短时记忆神经网络（LSTM-attention）等模型相比，结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分，生成的摘要内容更加丰富，全面且有效地减少重复、冗余内容的生成，Rouge-2和Rouge-4指标分别提升了1. 5%和1. 2%。

0 引言

随着近些年互联网产业的飞速发展，大量的新闻网站、新闻手机软件出现在日常生活中，越来越多的用户通过新闻网站、手机软件快速获取最新资讯。根据中国互联网络信息中心（China Internet Network Information Center，CNNIC）第 42 次发展统计报告，到2018年6月，中国的移动电话用户规模达到7. 88 亿，网民接入互联网的比例也在增加，通过手机达到98. 3％。网友人数增多、新闻媒体网络平台使用率不断提升，网友们使用今日头条等新闻媒体的频率也不断提升。为了适应当下快节奏的生活，网友需要阅读最少的新闻字数，获取新闻文章的关键内容。网友们可以通过文本自动摘要技术，概括出新闻的主要内容，节省阅读时间，提升信息使用效率。因此，本文提出的面向新闻的文本自动摘要模型具有重要意义。
国内外学者针对文本自动摘要已经做了大量的研究。文本自动摘要是 20世纪 50年代出现的一种用计算机完成的文本摘要技术，帮助人们从信息海洋中解放，提高信息的使用效率［2］。自2001年美国国家标准技术研究所举办文档理解会议以来，文本自动摘要研究得到了越来越多的关注［3］。
本文受文献［4］启发，针对网友阅读理解新闻时需要花费大量时间的问题，基于BERT（Bidirectional Encoder Representations from Transformers）和指针生成网络（Pointer Generator Network，PGN），提出了一种面向中文新闻文本的自动摘要模型——BERT-指针生成网络（Bidirectional Encoder Representations from Transformers-Pointer Generator Network，BERT-PGN），能够有效节省时间，提高信息使用效率。该模型首先利用 BERT 预训练语言模型获取新闻文本的词向量，结合多维语义特征对新闻中的词所在的句子进行打分，其结果作为输入序列输入到指针生成网络中进行训练，得到新闻摘要的结果。本文主要贡献如下。
1）本文提出了一种面向新闻文本进行自动摘要的模型——BERT-PGN，分为两个阶段实现：基于预训练模型及多维语义特征的词向量获取阶段以及基于指针生成网络模型的句子生成阶段。
2）实验结果表明，该模型在2017年CCF国际自然语言处理与中文计算会议（the 2017 CCF International Conference on Natural Language Processing and Chinese Computing，NLPCC2017）单文档中文新闻摘要评测数据集上取得了很好的效果，Rouge-2和Rouge-4指标分别提升1. 5%和1. 2%。

2 BERT-PGN模型

本文提出的 BERT-PGN 模型主要分成两个阶段实现，即基于预训练模型及多维语义的词向量获取阶段以及基于指针生成网络模型的句子生成阶段，如图 1 所示。该模型第一阶段利用预训练语言模型 BERT 获取新闻文章的词向量，同时利用多维语义特征对新闻中的句子进行打分，将二者进行简单拼接生成输入序列；第二阶段将得到的输入序列输入到指针生成网络模型中，使用coverage机制减少生成重复文字，同时保留生成新文字的能力，得到新闻摘要。

在这里插入图片描述

2. 1 基于预训练模型及多维语义特征的词向量获取阶段

2. 1. 1 BERT预训练语言模型

语言模型是自然语言处理领域一个比较重要的概念，利用语言模型对客观事实进行描述后，能够得到可以利用计算机处理的语言表示。语言模型用来计算任意语言序列a1，a2， …，an出现的概率p（a1，a2，…，an ），即：
通过传统的神经网络语言模型获取的词向量是单一固定的，存在无法表示字的多义性等问题。预训练语言模型很好地解决了这一问题，能够结合字的上下文内容来表示字。 BERT 采用双向 Transformer 作为编码器进行特征抽取，能够获取到更多的上下文信息，极大程度地提升了语言模型抽取特征的能力。Transformer编码单元包含自注意力机制和前馈神经网络两部分。自注意力机制的输入部分是由来自同一个字的三个不同向量构成的，分别Query向量（Q），Key向量（K）和Value向量（V）。通过Query向量和Key向量相乘来表示输入部分字向量之间的相似度，记做［QK］T ，并通过dk进行缩放，保证得到的结果大小适中。最后经过 softmax 进行归一化操作，得到概率分布，进而得到句子中所有词向量的权重求和表示。这样得到的词向量结合了上下文信息，表示更准确，计算方法如下：
BERT 预训练模型使用了“MultiHead”模式，即使用了多个注意力机制获取句子的上下文语义信息，称为多头注意力机制。BERT预训练语言模型能够使词向量获取更多的上下文信息，更好地表示原文内容。

2. 1. 2 多维语义特征

针对中文新闻重点内容集中在新闻开头、关键词出现频率高等特点，本文引入了传统特征以及主题特征对中文新闻文本中的句子进行细粒度的描述，提升对文本中句子的上下文语义表述性能。
1）传统特征。
本文所选择的传统特征主要为句子层次的两种特征：句子中的词频以及在文章中的位置。词频特征是反映新闻文章中最重要信息的一种统计特征，也是最简单、最直接的一种统计特征。新闻文章中出现词的词频可以利用式（3）进行计算：
其中，wordj 代表文章中第j个词出现的次数。在本文中，选择文章中的句子作为最终的打分基本单位。句子是词的集合，如果句子包含的词语中，有在新闻文章中频繁出现的高频词，则认为这个句子在文章中更加重要。新闻文章中第i个句子的词频特征打分公式如下：
其中：TFi表示第i个句子中包含的词的词频之和，seni代表第i 个句子中包含的所有词。位置特征同样是反映新闻文章中重要信息的一种统计特征。一篇新闻文章是由多个句子组成的，句子所在的位置不同，其代表的重要性也不同，例如文章中的第一个句子大多是新闻文章中最重要的一句话。新闻文章中第 i个句子的位置特征打分公式如下：
其中：Posi代表第 i个句子的位置得分，pi代表第 i个句子在新闻文章中的位置，n代表文章中的句子总个数。
2）主题特征。
本文选取的主题特征也可表述为标题特征。新闻文章中的标题具有很高的参考价值，很大程度上可以代表文章中的主题。因此，如果文章中的句子与新闻文章的标题有较高的相似度，那么这个句子更容易被选择为文章摘要中的句子。本文使用余弦相似度计算新闻文章中第 i个句子的主题特征得分，打分公式如下：

在这里插入图片描述

其中：Simi表示第 i个句子与新闻文章标题的相似度，s和 t分别代表标题和新闻文章中句子的向量化表示。

2. 2 基于指针生成网络模型的句子生成阶段

指针生成网络模型结合了指针网络（Pointer Network， PN）和基于注意力机制的序列到序列模型，允许通过指针直接指向生成的单词，也可以从固定的词汇表中生成单词。文本中的文字 wi依次传入 BERT-多维语义特征编码器、双向长短时记忆神经网络（Bidirectional Long Short-Term Memory，BiLSTM）编码器，生成隐层状态序列 hi 。在 t 时刻，长短时记忆（Long Short-Term Memory，LSTM）神经网络解码器接收上一时刻生成的词向量，得到解码状态序列st 。
注意力分布at 用来确定t时刻输出序列字符时，输入序列中需要关注的字符。计算公式如下：
其中，v、Wh、Ws 、battn是通过训练得到的参数。利用注意力分布对编码器隐层状态加权平均，生成上下文向量ht* 。

在这里插入图片描述

将上下文向量 ht * 与解码状态序列 st串联，通过两个线性映射，生成当前预测在词典上的分布Pvocab，计算公式如下：
其中，V’、V、b、b’是通过训练得到的参数。
模型利用生成概率Pgen来确定复制单词还是生成单词，计算公式如下：
其中，wh、ws 、wx、bptr是通过训练得到的参数，σ是sigmoid函数， xt是解码输入序列。将at
作为模型输出，得到生成单词w的概率分布：
为了解决生成词语重复的问题，本文引入了 coverage 机制。通过 coverage 机制对指针生成网络模型进行改进，能够有效减少生成摘要中的重复。引入 coverage 向量 ct 跟踪已经生成的单词，并对已经生成的单词施加一定的惩罚，尽量减少生成重复。coverage向量ct 计算方式如下：
通俗来说，ct 表示目前为止单词从注意力机制中获得的覆盖程度。使用coverage向量ct 影响注意力分布，重新得到注意力分布at，计算公式如下：
其中Wc是通过训练得到的参数。

3 实验与分析

3. 1 实验数据

本文的实验部分使用的数据是由 2017 年 CCF 国际自然语言处理与中文计算会议（NLPCC2017）提供，来自于 NLPCC2017中文单文档新闻摘要评测数据集，包含训练集新闻文本 49 500 篇，测试集新闻文本 500 篇。该任务中要求生成的摘要长度不超过60个字符。

3. 2 评价指标

Rouge是文本自动摘要领域摘要评价技术的通用指标之一，通过统计模型生成的摘要与人工摘要之间重叠的基本单元，评判模型生成摘要的质量。本文参考NLPCC2017中文单文档新闻摘要评测任务，使用 Rouge-2、Rouge-4 和 Rouge-SU4作为评价指标，对摘要结果进行评价。

3.3 对比实验

本文实验部分选取 8 种基本模型：NLPCC2017 单文档新闻摘要评测任务结果较好团
队（ccnuSYS、LEAD、 NLP@WUST、NLP_ONE）提出的模型［22］、PGN（without coverage mechanism）［23］、PGN［23］、主题关键词信息融合模型［24］以及 BERT-PGN（without semantic features）。对人工提取的主题特征、传统特征进行特征的有效性验证，验证本文提出方法的有效性。
1）ccnuSYS［22］：使用基于注意力机制的 LSTM 编码器-解码器结构模型生成摘要。
2）LEAD［22］：从原文选取前60个字作为文本摘要。
3）NLP@WUST［22］：使用特征工程的方法进行句子抽取，并利用句子压缩算法对抽取的句子进行压缩。
4）NLP_ONE［22］：NLPCC2017单文档新闻摘要评测任务第一名的算法，包含输入、输出序列的注意力机制。
5）PGN（without coverage mechanism）［23］：ACL2017 中提出的一种生成模型，使用指针网络和基于注意力机制的序列到序列模型生成摘要，不使用coverage机制。
6）PGN（coverage mechanism）［23］：改进的指针生成网络模型，利用coverage机制解决生成重复词和未登录词的问题。
7）主题关键词融合模型［24］：一种结合主题关键词信息的多注意力机制模型。
8）BERT-PGN（without semantic features）：本文提出的一种基于BERT和指针生成网络的模型，利用coverage机制减少生成重复内容。
9）BERT-PGN（semantic features）：在 BERT-PGN（without semantic features）模型上进行优化得到的模型，结合多维语义特征获取细粒度的文本上下文表示。

3. 4 实验环境及参数设置

本文实验使用单个GTX-1080Ti（GPU）进行训练。本实验获取文本词向量使用 BERT-base 预训练模型。BERT-base 模型共 12 层，隐层 768 维。设置最大序列长度为 128，
train_batch_size为16，learning_rate为 5E-5。指针生成网络模型设置 batch_size 为 8，隐层
256维，设置字典大小为 50k。训练过程共进行 700k 次迭代，训练总时长约为7 d5 h（合计173 h）。

3. 5 实验结果与分析

3. 5. 1 总体摘要结果对比实验

本文重新运行了部分baseline模型，将获取的结果与本文提出的模型结果做对比，实验结果如表1。
从表 1 可以看出，本文提出的模型性能相较于 PGN、 NLP_ONE 等模型有了显著的提升，在 Rouge-2、Rouge-4 以及Rouge-SU4的评价指标中有着明显的优势，Rouge指标提升了 1. 2~1. 5个百分点。由 BERT-PGN（semantic features）模型与 PGN、BERT-PGN （without semantic features）模型进行对比，可以看出使用BERT 预训练模型并结合有效的多维人工特征，能够显著提升模型效果。使用BERT预训练模型并结合人工抽取的特征得到的句子上下文表示，对文本中句子的语义理解更加深刻、准确，在文本自动摘要任务中能够有效提升性能。
根据表 2 不同模型生成摘要的内容可以发现，本文提出的 BERT-PGN 模型相较于其他模型，在中文新闻文本的自动摘要任务中生成的摘要内容更丰富、更全面、更贴近标准摘要，说明该模型对全文的理解更加充分，能够结合文中句子的上下文充分理解句子、词语的含义，对文中的句子、词语进行更细致的刻画。

3. 5. 2 多维语义特征对比实验

多维特征选取的部分，本文针对新闻文本“主要内容集中在开头部分”的特点，选取传统特征、主题特征中的词频特征、位置特征以及标题特征，分别表示为TF、Pos以及Main。由表 3 可以看出，同一模型结合人工提取的词频特征和位置特征效果最好，Rouge-2 指标最多提升了 1. 2 个百分点， Rouge-4指标最多提升了1. 0个百分点。

在这里插入图片描述

本文选取的主题特征 Main 能够在一定程度上提升模型的 Rouge 指标。从 Pos 和 Pos+Main、TF 和 TF+Main的特征组合结果对比可以得知，主题特征结合词频特征时提升明显，结合位置特征时基本没有提升。句子在新闻中的位置靠前时，与标题的相似度也更高，说明两种人工特征在衡量句子在新闻中的重要性时起到了相似的作用。
通过对比 TF+Main 和TF+Pos两种特征组合的结果可以得知，词频信息结合位置信息相较于结合主题信息效果更好，能够充分表达句子在新闻文章中的重要性。因此，本文选择使用词频特征以及位置特征的特征组合作为多维特征。新闻文章中多次出现的关键词，是反映新闻文章中最重要信息的一种统计特征，进行词频统计的意义在于找出文章表达的重点；此外，句子出现的位置也是反映句子重要程度的关键，出现的位置越靠前，说明该句子在文章中起到的作用越大。因此，词频、位置特征是自动摘要模型提升的关键。

3. 5. 3 coverage机制实验分析

本文使用的模型使用了 coverage 机制，试图解决生成重复内容的问题。通过计算生成摘要中 1-gram、2-gram、3-gram以及 4-gram 所占比例，定量分析引入 coverage 机制解决生成内容重复问题的效果。由表 4 可以看出，本文提出的BERT-PGN 模型相较于 NLP_ONE能够有效减少生成内容的重复，在解决重复的方面效果明显，在 3-gram、4-gram的摘要结果定量分析中，接近标准摘要的效果。
由表 4 可以看出，本文提出的 BERT-PGN 模型相较于 NLP_ONE能够有效减少生成内容的重复，在解决重复的方面效果明显，在3-gram、4-gram 的摘要结果定量分析中，接近标准摘要的效果。

4 结语

本文提出了一种面向中文新闻文本的 BERT-PGN 模型，结合 BERT 预处理模型及多维语义特征获取词向量，利用指针生成网络模型结合coverage机制减少生成重复内容。经实验表明，BERT-PGN模型在中文新闻摘要任务中，生成的摘要结果更接近标准摘要，包含更多原文的关键信息，能有效解决生成内容重复的问题。下一步将尝试挖掘更多要素，例如：面向新闻文本的有效人工特征等，提升摘要结果；简化模型，缩短模型训练时间；提升生成摘要内容的完整性、流畅性；构建新闻领域的外部数据，帮助模型结合句子上下文充分理解句子含义。

只是自己在工作中或者业务看到了这篇论文，顺便记录一下自己的学习。如果需要原论文可以评论邮箱，直接发邮箱。