『文献回顾』“文本自动摘要” 相关文献综述

文献回顾——『文本自动摘要』

在大四毕设选题时,我选到了『在线评论信息的自动摘要技术研究』的题目。因此,我决定在此记录所读的每一篇文献的思路及方法,一方面用于理清每篇文章的思路,另一方面便于日后写论文中的文献综述部分。

此后,随着研究的深入,我会将毕设所用的思路代码实现进行分享。

自动摘要概述

目的:将大量的文本用简短的语句进行快速表达,保留关键信息。

方法:自动摘要问题按照文档数量来说可以分成单文本摘要和多文本摘要。按照提取方式来分,可以分为抽取式(extractive)和生成式(abstractive)。

  • 抽取式按照一定的规则,给句子进行评分,找出文档中关键的句子,最后汇总形成文档摘要。抽取式摘要存在语义不通顺表意不清等问题。

  • 生成式则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。生成式摘要更符合人类的认知习惯,语句通顺语义清晰

相关技术:自然语言处理、主题模型、seq2seq、注意力机制

自然语言处理相关文献

(一)融合主题词嵌入和网络结构分析的主题关键词提取方法

主要方法词向量(Word2Vec) + 主题模型(LDA) + 关键词网络分析

这篇文献提供了一种 关键词提取 的思路:

  • 首先利用 LDA 对于数据集的主题进行初步提取,生成 主题 - 词 (m×n) 矩阵;

  • 接着,用 Word2Vec 训练数据集,得到词向量模型;

  • For each t in Topic (m):

    • For each w in KeyWords (n):

      • 利用生成的词向量模型,用余弦法计算该主题下词与词的相似度,作为两点之间的权重;

      • 设置阈值,过滤掉权重较低的词关系,其余的两两词之间连成一条边;

      • 利用 PageRank 方法进行迭代,最后输出 PR 值最高的 TopN 个词作为该主题下的关键词。

LdaVecNet模型

总结:先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 PageRank 方法对于主题下的关键词进行二次过滤。

抽取式摘要相关文献

(一)Opinion mining from online hotel reviews – A text summarization approach

(二)基于语义空间的抽取式单文档摘要方法

主要方法Word2Vec + TF-IDF + TextRank + 句子 - 原文相似度

主要步骤如下图所示:
在这里插入图片描述

  • 首先使用 Word2Vec 训练出词向量,得到词的向量空间,也称为语义空间,其语义空间中语义相近的词的位置非常接近。
  • 句子向量:句子中词向量叠加求均值作为句子向量表示;
  • 文本向量:通过 TF-IDF 提取原文的关键词,筛选去除语义表征能力差的词,然后通过原文中关键词的词向量叠加求均值作为原文向量表示。
  • 通过余弦相似度公式计算句子和原文之间的距离,从而找出贴近原文中心思想的句子。用 Dk 表示原文中第 k 个句子与原文的相似度。
    • (与 TextRank 结合的 M1 模型):首先构建无向带权图,顶点为原文中句子;然后确定顶点间关系,即句子之间的相似度,最后用 TextRank 模型计算句子的权重。
      在这里插入图片描述
      在这里插入图片描述
    • (与 TF-IDF 结合的 M2 模型): 通过 TF-IDF 计算出词的权重,进而计算出句子的权重。句子权重为句子中每个词的权重之和。
    • M1M2结合)选出关键句。

核心:把句子-原文相似度应用到单文档摘要中,以提高抽取出的摘要与原文的语义相似度。

生成式摘要相关文献

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值