简单爬虫设计(六)——原始网页数据存储方案选择

为什么要存原始数据

在实现一个生产环境可用的网络爬虫时,有一个问题几乎是无法绕过的,那就是网页原始数据的存储。

在比较简单的使用场景下,是不需要考虑如何保存原始网页的。例如,用户只想要某个网站的数据,而且只要达到某个数据量就可以了。如果在处理某个特殊页面时发生了异常,直接跳过这个页面也是可以接受的。

但是,一旦用户有数据质量的要求,就需要更加严肃而且完整的技术方案。在这些技术方案中,原始数据的存储和交换,都是必选项。也许有人认为,原始网页保存在网站那里就好了,需要的时候再去采集就好了。这个时候,就需要和用户沟通需求,如果用户认可,那就可以这么做。但根据个人的项目经验,把数据搜集全,是很刚性的需求,不太容易商量。

以易用性作为卖点的爬虫框架,会让使用者产生一些对于数据搜集技术的误解,因为他们屏蔽了太多技术细节。使用者只看到了基本流程:1、下载网页;2、抽取所需的数据;3、然后把这些抽取数据保存下来。却忽略了数据质量的需求。

为了实现较高的数据质量,就必须投入额外的成本,有时候这个成本会很高,但同时也就意味着高质量数据服务更值钱

保存原始数据是提高数据质量的前提

简单说两个理由:

一、保存原始数据可以在网站改版的时候,保证数据不丢失,只要修改抽取规则,对原始网页重新处理即可。
二、原始数据是网页信息抽取模块的输入,原始数据可以让研发迭代信息抽取算法,优化用户使用体验。

原始数据存储方案

既然原始数据如此重要,我们需要怎么存储呢?

有这样一些技术方案,大致可以分为文件系统和数据库两大类,具体如下:

一、单机文件系统。

  • 优点:简单。
  • 缺点:无法支撑大规模应用,数据可靠性无法保障。

二、用分布式文件系统。

  • 优点:解决了文件存储容量和扩展问题。
  • 缺点:要选择分布式文件系统,有额外的成本。

三、把网页保存到关系数据库。

  • 优点:可以存关联的信息,也方便访问。
  • 缺点:大规模存储和归档都不好做,需要投入维护或者购买成本。

四、把网页保存到NoSQL,比如HBase、ES等。

  • 优点:可以存关联的信息,也方便扩展。
  • 缺点:要购买或维护NoSQL集群。

五、用对象存储。

  • 优点:接口简单易用。
  • 缺点:要购买或维护对象存储集群。

上面的存储方案,需要根据项目的具体情况进行选择。如果项目中已经使用了某些存储系统,就尽量复用。

在使用文件系统存储原始数据时,最好保存WARC格式的文件,而不是HTML文件。

题外话

在真实项目中,很难用一种存储技术支撑用户的多种使用场景。一般搜索会选择Solr或者Elasticsearch;图片和视频数据会选择分布式文件系统或者对象存储;原始网页一般会选择HBase或者MongoDB;原始数据归档会选择大文件。

小结

原始网页数据的存储是很重要的,需要根据用户需求和项目情况,选择合适的技术方案。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值