在上一篇博文中有和大家介绍了nutch爬虫抓取数据的整个过程,爬虫一般会抓取到很多的内容,那么这些内容都存放到什么地方了呢?其实nutch在抓取的过程中会产生很多的目录,会把抓到的内容分别保存到不同的目录之中。那么,这些目录的结构的什么样的?每个目录里面又保存了哪些内容呢?本篇博文将为你揭晓。
从上一篇博文我们可以知道,nutch爬虫在执行数据抓取的过程中,在data目录下面有crawldb和segments两个目录:
下面我们对这两个目录里面的内容做详细的介绍:
1. crawldb
crawldb里面存储的是爬虫在抓取过程中的所有的URL,里面也有两个目录:current和old。
之前已经抓取过的url放到old目录中,当前需要执行的放到current目录里面。
在current目录下面有一个文件夹part-0000,如果是deploy模式的分布式方式,在这个目录下会有相关的其他一些目录,如:part-0001,part-0002等。在part-0000下面也有两个目录:data和index。