《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》

最新推荐文章于 2021-10-29 15:54:49 发布

MarissaG

最新推荐文章于 2021-10-29 15:54:49 发布

阅读量4k

点赞数 2

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/victoriaGYR/article/details/84976372

版权

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

LCSTS 数据集的构建给中文文本摘要的研究奠定了基础，LCSTS数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时作者团队也手动标注了10666份文本的摘要。

一、数据来源

首先，数据来源主要是微博爬虫，数据收集的策略很类似pageRank思想。先找50个流行的官方组织用户作为种子然后从种子用户中抓取他们关注的用户，并且将不是大V，且粉丝少于100万的用户过滤掉。然后抓取候选用户的微博内容。最后通过过滤，清洗，提取等工作得到最后的数据集。

二、实验

实验中，本文使用seq2seq模型进行验证。

采用了两种方法来处理数据：

1、基于汉字的方法(character-based)，将词汇表降维到了4000。

2、基于词的方法（word-based），本文用jieba做分词，词汇表维度为50000。

最后效果最好的是RNN+context+char。

三、评价标准

评价标准蛮有意思。评测方法采用ROUGE-1，ROUGE-2，ROUGE-L，由于标准的ROUGE包是用来评测英文的，所以这里将中文汉字转换成id。结果中基于汉字的RNN context模型有更好的效果。简单分析下原因，基于词的模型由于词汇表的限制，非常容易遇到unknown words，而基于字则不同，可以轻松解决unk的问题。

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》

LCSTS 数据集的构建给中文文本摘要的研究奠定了基础，LCSTS数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时作者团队也手动标注了10666份文本的摘要。一、数据来源首先，数据来源主要是微博爬虫，数据收集的策略很类似pageRank思想。先找50个流行的官方组织用户作为种子然后从种子用户中抓取他们关注的用户，并且将不是大V，且粉丝少于100万的用户过...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。