【文本摘要】文本摘要(text summarization)最新研究热点、发展趋势、里程碑论文推荐...

点击上方,选择星标置顶,每天给你送干货

阅读大概需要6分钟

跟随小博主,每天进步一丢丢

作者:刘鹏飞

编辑:AINLP

原文链接,点击文末阅读原文直达:

https://zhuanlan.zhihu.com/p/111266615


根据最近八年(2013-2020))各大NLP会议(ACL / EMNLP / NAACL / ICML / ICLR / AAAI / IJCAI / NeurIPS) 近300篇摘要论文的分析,我们简单统计摘要以下的发展趋势:

蓝色柱形图表示对应topic下2019年以前的论文数,红色柱形图表示对应topic下2019年及以后的论文数;红色高亮文字为热门研究话题;(热门话题根据2019以后论文数目占比而定义)

最新发展趋势:

1  模型角度:图神经网络(GNNs) 和 为摘要定制化的与训练模型 (Pre-trained models) 逐渐成为2019关注热点;(如果你感兴趣该热点下的论文:

1)GNNs:

http://pfliu.com/pl-summarization/summ_paper_arch-gnn.html

Summarization-Paperlist pfliu.com

2) Pre-trained Models:

http://pfliu.com/pl-summarization/summ_paper_preX.html

Summarization-Paperlist pfliu.com

2  数据集角度:越来越多的工作专注提出适用在不同场景的新数据集;(如果你感兴趣该热点下的论文:

http://pfliu.com/pl-summarization/summ_paper_data-new.html

Summarization-Paperlist pfliu.com

3  任务设定角度:学术论文摘要异军突起;(如果你感兴趣该热点下的论文:

http://pfliu.com/pl-summarization/summ_paper_task-sci.html

Summarization-Paperlist pfliu.com

4) 评测角度:生成式摘要的"事实性"(factuality)检测大热;(如果你感兴趣该热点下的论文:

http://pfliu.com/pl-summarization/summ_paper_factuality.html

Summarization-Paperlist pfliu.com

摘要领域基础研究概念

那么,摘要除了这些研究话题,还有什么其它的研究概念呢?这里我们通过300篇左右论文,做了如下抽象,定义了该任务下比较重要的一些研究概念,强烈建议领域新人查阅;可以大大加快你在该任务下的论文阅读速度

链接如下:

https://github.com/neulab/Text-Summarization-Papers/blob/master/summ_concept.md

https://github.com/neulab/Text-Summarization-Papers/blob/master/summ_concept.md github.com

论文推荐

1) 抽取式摘要10篇必读论文:

http://pfliu.com/pl-summarization/summ_paper_gen-ext.html

Summarization-Paperlist pfliu.com

2) 生成式摘要10篇必读论文:

http://pfliu.com/pl-summarization/summ_paper_gen-abs.html

Summarization-Paperlist pfliu.com

3)深度学习时代摘要10大高引论文:

http://pfliu.com/pl-summarization/summ_paper_topcited.html

Summarization-Paperlist pfliu.com

彩蛋

2013年以来8大AI会议近300篇摘要论文大列表:

http://pfliu.com/pl-summarization/summ_paper.html

Summarization-Paperlist pfliu.com

最后最后,,,包含上述所有介绍的项目主页:

https://github.com/neulab/Text-Summarization-Papers

neulab/Text-Summarization-Papers github.com


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

让更多的人知道你“在看”

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: gensim.summarization是一个使用gensim库实现的文本摘要(自动摘要)工具。它可以从文本中提取关键句子,生成摘要。该工具使用TextRank算法,对文本中的句子进行排序,并从中选择最具有代表性的句子作为摘要。它适用于不同领域的文本,例如新闻、科技文章等。 ### 回答2: gensim.summarization是一款用于文本摘要的Python包。它可以帮助用户将长篇文章或文本摘要成短文本,从而更方便地阅读和理解。gensim.summarization的主要功能是提取关键词和生成文章摘要。 在使用gensim.summarization之前,需要首先安装它并导入相应的包。gensim.summarization提供了两个常用的方法,分别是summarize和keywords。其中,summarize方法可以帮助我们生成摘要,而keywords方法则可以提取文章的关键词。 使用summarize方法时,需先将文本拆分成句子。然后,summarize方法会根据句子之间的相似度,从中选择出最具代表性的几句话作为摘要。可以通过ratio参数调整生成摘要的比例,也可以通过word_count参数指定生成摘要的字数。 使用keywords方法时,首先需要通过文本的TF-IDF值来提取出最重要的关键词。关键词的选择是根据它们与文章主题的相关性进行的,所以提取得到的关键词通常是比较准确的。 总的来说,gensim.summarization是一款强大的文本摘要工具,它可以帮助用户更快速和有效地理解长篇文章或文本的主旨。对于需要经常处理大量文本的人来说,gensim.summarization无疑是一种非常实用的工具。 ### 回答3: gensim.summarization 是一个基于 gensim 库开发的 Python 自然语言处理工具,用于对文本进行自动摘要和关键词提取。 在实现自动摘要方面,gensim.summarization 利用 TextRank 算法,该算法可以从文本中自动抽取重要的句子,生成概括性的摘要文本。使用该算法时,需要输入原始文本、期望输出的摘要长度和摘要压缩率参数,gensim.summarization 会自动计算每个句子的权重,并返回摘要文本。 关键词提取方面,gensim.summarization 提供了两种算法:TextRank 和 LSI(Latent Semantic Analysis)。TextRank 算法主要从句子中提取单词,而 LSI 则是从整个文本中提取。这两种算法都可以使用,以便找到最有代表性的关键词。 此外,gensim.summarization 还支持删除停用词,这些词通常是没有实际意义,例如“是”、“的”、“了”等等。gensim.summarization 可以从文本中删除这些无用词汇,确保提取到的关键词和摘要内容更加精准。 总之,gensim.summarization 是一个方便易用、具备多种特性的 Python 自然语言处理工具,非常有利于文本数据的处理和分析。无论是在学术研究、商业应用还是日常生活中,使用 gensim.summarization 都可以提高文本处理的效率,提高数据的可读性和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值