文本摘要方法总结

最新推荐文章于 2024-11-27 16:28:03 发布

炼丹笔记

最新推荐文章于 2024-11-27 16:28:03 发布

阅读量1k

点赞数 2

文章标签：深度学习机器学习自然语言处理人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52122378/article/details/122682554

版权

本文探讨了文本摘要的两种主要方法：基于抽取和基于概要。抽取式摘要通过提取关键单词和句子实现，如利用词频、TextRank和sentence embeddings与聚类。而概要式摘要利用seq-to-seq模型进行抽象，更接近人类总结。尽管抽象式方法效果更好，但抽取式因技术成熟仍被广泛使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说到文章摘要大家并不陌生，就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢？可以看以下总结。

文章摘要

基于抽取的文章摘要(Extraction-based)
1 词频 (Leverage word frequencies)
2 Textrank (Leverage embeddings similarity with TextRank)
3 embedding聚类 (Leverage embeddings and clustering)
基于概要的文章摘要(Abstraction-based)
1 seq2seq模型 (Seq-to-seq models and supervised learning)

基于抽取的文章摘要

从长文本中提取代表最重要要点的单词或句子的子集，并结合起来形成摘要，结果在语法上可能不准确。

基于概要的文章摘要

使用深度学习技术（主要在seq-to-seq模型中）像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子，因此它们可以帮助克服基于抽取技术的语法错误。

虽然抽象在文本摘要方面表现得更好，但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此，抽取式文本摘要方法仍然广泛流行。

Leverage word frequencies

清除文档中的停用词、数字、标点符号和其他特殊字符。
把文档拆分成句子。
计算每个单词在文档中出现的次数，并将其除以文档中出现频率最高的单词的出现次数，以获得单词频率。
将出现在同一句子中的所有单词的词频相加，并获得每个句子的分数。
句子的分数高于某个

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。