数据搜集经验-- A Topic Model for Hierarchical Documents

本文分享了在构建层级文档主题模型时的数据收集经验。作者指出,需要包含正文和跟帖的双层文本内容,已有的网易新闻和新浪博客数据集不足以满足英文验证需求。在寻找合适英文数据集的过程中,作者强调使用公开数据集和API的效率高于自建爬虫,并分享了尝试获取CNN、Yahoo! News和Reddit数据集的困难。最终,作者发现亚马逊商品评论可能提供符合要求的数据,并在SNAP找到了相关数据集。
摘要由CSDN通过智能技术生成

Intro


由于模型是对文本层级结构进行建模,而下一层文本的主题部分来自于正文,所以需要同时具有两层文本内容的数据来train模型。

因为需要投英文会议,所以充分的数据验证需要包含至少一个常用英文数据集,而目前我已经拿到的数据集只包含了网易新闻和新浪博客的正文及其跟帖。所以还需要在搜集一个英文数据集。

在数据搜集方面我的经验是,能拿到公开数据集的话一定不要自行搜集,能用API的话一定不要自己写爬虫,依次需要花费更多的时间。当然,写爬虫基本上是做数据挖掘的基本技能,能够按需拿到很多有趣的数据,做一些有趣的project,有空的话还是可以练练手的。我了解统计方向的学生和老师,会异常频繁地找cs方向学生帮忙爬数据,所作问题经常受限于数据集而无法开展或拖累了进程。因而cs的人可以天马行空地发现并解决各种各样有趣和有意义的问题,而statistic的同学这方面的特质就不特别明显。例如某P大统计方向教授(不提名字了,不好),在发表对social network方面的认识、理解和感兴趣的研究方向时,我听起来就有点那义务、老套。甚至于还比不过一些具有统计物理背景的人的思路开阔。

Proc


下面mark一下昨天找英文数据集的过程,然后再补记一下网易新闻和新浪博客数据搜集的基本情况。

恩,要找一个英文数据,具有较长的正文和较短的评论。典型的数据来源就是新闻站点中的news article和comments,博客网站中的blog posts和comments,这些也是我上述两个数据集的来源。英文的,就本能地首先想到了英文博客blogger(谷歌大法)和各种新闻网站。

博客数据有不少开源数据集,但是早期的数据主要关注点是用户的关注关系,也就是社交网络结构数据,没有内容;后来有了内容之后,也只关注正文内容,没有跟帖内容。

关于新闻数据,首先找了一些知名新闻站点,如CNN等。然而它们每篇新闻的跟帖都太少,而且相关研究文章都没有进行数据共享,他们一般只提到数据来自于rss的定期搜集更新,这样是拿不到跟帖内容的;仅有的一个数据集只包含了新闻正文和各个时刻的跟帖数update,没有跟帖内容。雅虎研究院倒是一年前发布了一个符合我要求的yahoo!news数据集,然而现在已经取消开放下载了,各处也找不到共享的链接,也只好放弃。

如果只检索comments的话,只能搜到一个reddit的comments合集数据,然而reddit网站的数据不明显具有长正文、短跟帖结构,所以也是不可用的。

Res


后来就想到,类似的数据集还有电商网站,如亚马逊中商品通常具有较详细的描述内容,而跟帖会做简短地商品评价。当然亚马逊美国的网站中评论经常会非常地长,那么在整理数据集的时候对不符合长度比例要求的data point筛选掉好了,比自己写爬虫怕数据省时间多了。在SNAP上就有共享数据集。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值