网页存储解决方案

很多数据采集任务并不复杂,例如门户网站新闻采集,代码可以在10分钟内编写,但采集到的网页如何存储缺成为一个大问题。

下面先给出一些常见的,但本人认为是错误的方法:

1.将网页按照网站目录结构存储

先不考虑小文件存储的问题,网站结构和文件目录并不能做到一一对应,例如一个网站同时包含下面两个URL,两个URL并不指向同一页面:

http://www.abc.com/test/a
http://www.abc.com/test

爬虫先抓取到第一个网页,在根目录下创建了文件夹test,并在test中创建了a这个网页文件。当网站抓取到第二个网页时,应该在根目录下创建名为test的网页文件,这是出现问题了,根目录下已经有了一个叫test的文件夹,不能再创建名为test的文件了。

另一方面,很多URL后面带有参数,对于带有参数的URL该如何设定文件名也是一件较为麻烦的事情。

2.用一个自增整数作为文件名,将所有网页存储在同一文件夹下

当网页量较少时,这是一个比较省事的方法。但当网页量较大时,就会出现小文件的问题。无论是PC机,还是hadoop集群,大量的小文件会干扰文件系统的正常使用。

3.将网页存储到mysql中

既不能存储大量的网页(量大时影响mysql性能),又不利于查询(长文本无法全索引)。

存储海量网页,使用mongodb等key-value形式的nosql,或将大量网页拼接为一个结构化的大文件(例如hadoop的SequenceFile),都是一个比较好的选择。

使用mongodb等key-value形式的nosql方便查询(不过仅限于在已知URL情况下的查询)。

使用mongodb或hadoop的SequenceFile,都比较适合使用hadoop或spark对海量网页做map reduce操作,也就是说利于做网页分析。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值