说到文章摘要大家并不陌生,就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢?可以看以下总结。
文章摘要
- 基于抽取的文章摘要(Extraction-based)
1 词频 (Leverage word frequencies)
2 Textrank (Leverage embeddings similarity with TextRank)
3 embedding聚类 (Leverage embeddings and clustering) - 基于概要的文章摘要(Abstraction-based)
1 seq2seq模型 (Seq-to-seq models and supervised learning)
基于抽取的文章摘要
从长文本中提取代表最重要要点的单词或句子的子集,并结合起来形成摘要,结果在语法上可能不准确。
基于概要的文章摘要
使用深度学习技术(主要在seq-to-seq模型中)像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子,因此它们可以帮助克服基于抽取技术的语法错误。
虽然抽象在文本摘要方面表现得更好,但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此,抽取式文本摘要方法仍然广泛流行。
Leverage word frequencies
- 清除文档中的停用词、数字、标点符号和其他特殊字符。
- 把文档拆分成句子。
- 计算每个单词在文档中出现的次数,并将其除以文档中出现频率最高的单词的出现次数,以获得单词频率。
- 将出现在同一句子中的所有单词的词频相加,并获得每个句子的分数。
- 句子的分数高于某个