数据搜集经验-- A Topic Model for Hierarchical Documents

最新推荐文章于 2018-04-17 08:10:01 发布

Halfangle

最新推荐文章于 2018-04-17 08:10:01 发布

阅读量1.5w

点赞数 1

分类专栏：数据准备日常文章标签：网易新浪数据集爬虫

本文链接：https://blog.csdn.net/u010533386/article/details/51440823

版权

数据准备日常专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文分享了在构建层级文档主题模型时的数据收集经验。作者指出，需要包含正文和跟帖的双层文本内容，已有的网易新闻和新浪博客数据集不足以满足英文验证需求。在寻找合适英文数据集的过程中，作者强调使用公开数据集和API的效率高于自建爬虫，并分享了尝试获取CNN、Yahoo! News和Reddit数据集的困难。最终，作者发现亚马逊商品评论可能提供符合要求的数据，并在SNAP找到了相关数据集。

摘要由CSDN通过智能技术生成

Intro

由于模型是对文本层级结构进行建模，而下一层文本的主题部分来自于正文，所以需要同时具有两层文本内容的数据来train模型。

因为需要投英文会议，所以充分的数据验证需要包含至少一个常用英文数据集，而目前我已经拿到的数据集只包含了网易新闻和新浪博客的正文及其跟帖。所以还需要在搜集一个英文数据集。

在数据搜集方面我的经验是，能拿到公开数据集的话一定不要自行搜集，能用API的话一定不要自己写爬虫，依次需要花费更多的时间。当然，写爬虫基本上是做数据挖掘的基本技能，能够按需拿到很多有趣的数据，做一些有趣的project，有空的话还是可以练练手的。我了解统计方向的学生和老师，会异常频繁地找cs方向学生帮忙爬数据，所作问题经常受限于数据集而无法开展或拖累了进程。因而cs的人可以天马行空地发现并解决各种各样有趣和有意义的问题，而statistic的同学这方面的特质就不特别明显。例如某P大统计方向教授（不提名字了，不好），在发表对social network方面的认识、理解和感兴趣的研究方向时，我听起来就有点那义务、老套。甚至于还比不过一些具有统计物理背景的人的思路开阔。

Proc

下面mark一下昨天找英文数据集的过程，然后再补记一下网易新闻和新浪博客数据搜集的基本情况。

恩，要找一个英文数据，具有较长的正文和较短的评论。典型的数据来源就是新闻站点中的news article和comments，博客网站中的blog posts和comments，这些也是我上述两个数据集的来源。英文的，就本能地首先想到了英文博客blogger（谷歌大法）和各种新闻网站。

博客数据有不少开源数据集，但是早期的数据主要关注点是用户的关注关系，也就是社交网络结构数据，没有内容；后来有了内容之后，也只关注正文内容，没有跟帖内容。

关于新闻数据，首先找了一些知名新闻站点，如CNN等。然而它们每篇新闻的跟帖都太少，而且相关研究文章都没有进行数据共享，他们一般只提到数据来自于rss的定期搜集更新，这样是拿不到跟帖内容的；仅有的一个数据集只包含了新闻正文和各个时刻的跟帖数update，没有跟帖内容。雅虎研究院倒是一年前发布了一个符合我要求的yahoo!news数据集，然而现在已经取消开放下载了，各处也找不到共享的链接，也只好放弃。

如果只检索comments的话，只能搜到一个reddit的comments合集数据，然而reddit网站的数据不明显具有长正文、短跟帖结构，所以也是不可用的。