很多数据采集任务并不复杂,例如门户网站新闻采集,代码可以在10分钟内编写,但采集到的网页如何存储缺成为一个大问题。
下面先给出一些常见的,但本人认为是错误的方法:
1.将网页按照网站目录结构存储
先不考虑小文件存储的问题,网站结构和文件目录并不能做到一一对应,例如一个网站同时包含下面两个URL,两个URL并不指向同一页面:
http://www.abc.com/test/a
http://www.abc.com/test
爬虫先抓取到第一个网页,在根目录下创建了文件夹test,并在test中创建了a这个网页文件。当网站抓取到第二个网页时,应该在根目录下创建名为test的网页文件,这是出现问题了,根目录下已经有了一个叫test的文件夹,不能再创建名为test的文件了。
另一方面,很多URL后面带有参数,对于带有参数的URL该如何设定文件名也是一件较为麻烦的事情。
2.用一个自增整数作为文件名,将所有网页存储在同一文件夹下
当网页量较少时,这是一个比较省事的方法。但当网页量较大时,就会出现小文件的问题。无论是PC机,还是hadoop集群,大量的小文件会干扰文件系统的正常使用。
3.将网页存储到mysql中
既不能存储大量的网页(量大时影响mysql性能),又不利于查询(长文本无法全索引)。
存储海量网页,使用mongodb等key-value形式的nosql,或将大量网页拼接为一个结构化的大文件(例如hadoop的SequenceFile),都是一个比较好的选择。
使用mongodb等key-value形式的nosql方便查询(不过仅限于在已知URL情况下的查询)。
使用mongodb或hadoop的SequenceFile,都比较适合使用hadoop或spark对海量网页做map reduce操作,也就是说利于做网页分析。