2018 Byte Cup 国际机器学习竞赛(以下简称 Byte Cup)是一项面向全球的机器学习竞赛,旨在促进机器学习的学术研究和具体应用。
Byte Cup 2018 的主题是自动生成文本标题。自从互联网诞生以来,人类产生和获取的文字信息量增加了很多。移动互联网更是能让每个人随时随地都可以接收到最新的信息,并且可以随时随地创作内容。内容信息的过载让机器创作变得十分重要。
首先,机器创作标题和摘要可以快速总结文章内容,方便迅速浏览。其次,根据今日头条等产品的数据,内容创造和内容的阅读量符合幂律:大量内容只有很少的人阅读。如果这部分内容可以由机器自动创作,可以极大地减小成本。此外,自动摘要和自动标题生成也是自然语言处理领域的重要研究课题。
目前,比赛已经进入了测试集阶段,为期一周,我们收集了以下资料,帮你快速进入文本摘要和标题生成这一领域。
PaperWeekly 曾于 2016 年发表了一系列关于自动摘要生成的文章,全面地介绍了这一领域的各种进展,同时介绍了不少领域内的经典论文。
目录:
https://rsarxiv.github.io/tags/自动文摘/
自动文摘(一)
https://rsarxiv.github.io/2016/03/20/自动文摘(一)/
自动文摘(二)
https://rsarxiv.github.io/2016/03/30/自动文摘(二)/
自动文摘(三)
https://rsarxiv.github.io/2016/04/06/自动文摘(三)/
自动文摘(四)
https://rsarxiv.github.io/2016/04/17/自动文摘(四)/
自动文摘(五)
https://rsarxiv.github.io/2016/04/24/自动文摘(五)/
自动文摘(六)
https://rsarxiv.github.io/2016/04/30/自动文摘(六)/
自动文摘(七)
https://rsarxiv.github.io/2016/05/07/自动文摘(七)/
自动文摘(八)
https://rsarxiv.github.io/2016/05/10/自动文摘(八)/
自动文摘(九)
https://rsarxiv.github.io/2016/05/11/自动文摘(九)/
自动文摘(十)
https://rsarxiv.github.io/2016/05/12/自动文摘(十)/
自动文摘(十一)
https://rsarxiv.github.io/2016/05/12/自动文摘(十一)/
自动文摘(十二)
https://rsarxiv.github.io/2016/05/17/自动文摘(十二)/
自动文摘(十三)
https://rsarxiv.github.io/2016/05/18/自动文摘(十三)/
著名的 IT 博主阮一峰也曾用深入浅出的语言描述了这个领域内的一篇经典论文(1958 年 IBM),并附上了 C# 和 Python 链接:
《TF-IDF与余弦相似性的应用(三):自动摘要》,阮一峰:
http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
2004 年,Mihalcea R, Tarau P 等人在 ACL 上发表了一篇基于 TextRank 进行文本摘要的论文。以下是一篇 TextRank 文本摘要的介绍:
《使用TextRank算法为文本生成关键字和摘要》,乐天笔记:
https://www.letiantian.me/2014-12-01-text-rank/
代码:
https://github.com/letiantian/TextRank4ZH
此后,Seq2Seq 和 Attention 等技术,将自动摘要带上了一个新的台阶,也是当前主流的标题生成方法。参考:
代码:
https://github.com/bojone/seq2seq/blob/master/seq2seq.py
?
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 访问大赛主页