文本摘要方法总结

本文探讨了文本摘要的两种主要方法:基于抽取和基于概要。抽取式摘要通过提取关键单词和句子实现,如利用词频、TextRank和sentence embeddings与聚类。而概要式摘要利用seq-to-seq模型进行抽象,更接近人类总结。尽管抽象式方法效果更好,但抽取式因技术成熟仍被广泛使用。
摘要由CSDN通过智能技术生成

说到文章摘要大家并不陌生,就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢?可以看以下总结。

文章摘要

  • 基于抽取的文章摘要(Extraction-based)
    1 词频 (Leverage word frequencies)
    2 Textrank (Leverage embeddings similarity with TextRank)
    3 embedding聚类 (Leverage embeddings and clustering)
  • 基于概要的文章摘要(Abstraction-based)
    1 seq2seq模型 (Seq-to-seq models and supervised learning)

基于抽取的文章摘要

从长文本中提取代表最重要要点的单词或句子的子集,并结合起来形成摘要,结果在语法上可能不准确。

基于概要的文章摘要

使用深度学习技术(主要在seq-to-seq模型中)像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子,因此它们可以帮助克服基于抽取技术的语法错误。

虽然抽象在文本摘要方面表现得更好,但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此,抽取式文本摘要方法仍然广泛流行。

Leverage word frequencies

  1. 清除文档中的停用词、数字、标点符号和其他特殊字符。
  2. 把文档拆分成句子。
  3. 计算每个单词在文档中出现的次数,并将其除以文档中出现频率最高的单词的出现次数,以获得单词频率。
  4. 将出现在同一句子中的所有单词的词频相加,并获得每个句子的分数。
  5. 句子的分数高于某个
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值