《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》
LCSTS 数据集的构建给中文文本摘要的研究奠定了基础,LCSTS数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时作者团队也手动标注了10666份文本的摘要。 一、数据来源 首先,数据来源主要是微博爬虫,数据收集的策略很类似pageRank思想。先找50个流行的官方组织用户作为种子然后从种子用户中抓取他们关注的用户,并且将不是大V,且粉丝少于100万的用户过...
原创
2018-12-12 17:33:05 ·
4052 阅读 ·
0 评论