论文阅读:STC data set for single-turn short text conversation——Wang 2013 Noah's Ark Lab
首先吐槽一句,不公开完整human labelled 数据集……这是一个基于Sina微博的数据集,是从一些中国搞NLP的高级知识分子的微博posts中爬下来的(posts的质量较高),但是comments(replies)是所有人都可以发的。一、data set构建的方法如下:1、 crawling the community of users首先确定10个在sina微博上...
原创
2018-07-25 01:12:46 ·
1075 阅读 ·
0 评论