《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》

  LCSTS 数据集的构建给中文文本摘要的研究奠定了基础,LCSTS数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时作者团队也手动标注了10666份文本的摘要。

  一、数据来源

  首先,数据来源主要是微博爬虫,数据收集的策略很类似pageRank思想。先找50个流行的官方组织用户作为种子然后从种子用户中抓取他们关注的用户,并且将不是大V,且粉丝少于100万的用户过滤掉。然后抓取候选用户的微博内容。最后通过过滤,清洗,提取等工作得到最后的数据集。

  二、实验

  实验中,本文使用seq2seq模型进行验证。

  采用了两种方法来处理数据:

  1、基于汉字的方法(character-based),将词汇表降维到了4000。

  2、基于词的方法(word-based),本文用jieba做分词,词汇表维度为50000。

   最后效果最好的是RNN+context+char。

  三、评价标准

    评价标准蛮有意思。评测方法采用ROUGE-1,ROUGE-2,ROUGE-L,由于标准的ROUGE包是用来评测英文的,所以这里将中文汉字转换成id。结果中基于汉字的RNN context模型有更好的效果。简单分析下原因,基于词的模型由于词汇表的限制,非常容易遇到unknown words,而基于字则不同,可以轻松解决unk的问题。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: lcsts 是一个大规模的中文短文本摘要数据集,包含了来自互联网上的新闻、微博、博客、评论等各种类型的短文本数据。该数据集共有 2 万多篇原始文本和对应的人工摘要,涵盖了多个主题和领域,如时政、社会、科技、娱乐等。每篇原始文本长度在 30 到几百个字符之间,摘要长度在 10 到 80 个字符之间。 lcsts 数据集的构建过程采用了标注-人工审核的方式。首先从互联网上采集了大量的短文本数据,然后通过自动摘要算法生成了初步的摘要,最后由人工审核和纠正。人工审核的标准是要求摘要正确地概括原始文本的主旨和要点,并且能够清晰、简洁地表达。在这样的标准下,lcsts 数据集具备了高质量和广泛覆盖性的特点。 lcsts 数据集可以被广泛应用于文本摘要、自然语言处理、机器翻译等领域的研究和应用中。例如,在文本摘要领域,利用 lcsts 数据集可以进行摘要算法的评估和改进;在机器翻译领域,可以将 lcsts 数据集作为训练数据集用于中英文、中日文、中韩文等短文本的机器翻译任务中。总之,lcsts 数据集为中文自然语言处理领域的研究和发展提供了重要的数据基础和评估标准。 ### 回答2: lcsts是一个大规模的中文短文本摘要数据集。目前,该数据集包含超过200,000篇文章及其对应的摘要,每篇文章平均长度为约200个字符,摘要平均长度为约30个字符。这个数据集的建立对于促进中文自然语言处理相关领域的研究和应用具有重要意义。 lcsts数据集是基于人工标注的方式构建而成。数据来源于新浪新闻,通过爬虫程序获取,然后经过人工处理,采用分句、去重和抽取等方式进行清洗和预处理,最终形成了该数据集。这个数据集不仅仅可以用于中文短文本摘要领域的训练和测试,也可以应用到其他中文自然语言处理领域,如句子分类、命名实体识别等方面的研究。 利用lcsts数据集进行中文短文本摘要的研究和应用,可以帮助人们更好地理解基于机器学习模型的文本摘要技术。通过模型训练和测试,进一步完善中文文本摘要技术的方法和算法,为实际应用提供更有用的解决方案。此外,这个数据集的建立也为社会各界提供了一个方便、可靠的研究平台,为中文自然语言处理领域的研究和发展推进做出了贡献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值