开发一款开源爬虫框架系列(二):设计爬虫架构

欢迎留言讨论

   爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawler

    既然是构建分布式爬虫架构,分布式说明爬虫能在多台机器同时运行,所以一定是多客户端的,客户端主要用于下载网页,内容会放入队列,多客户端就有可能运行在不同的操作系统不同的语言环境,所以我们让它暂时支持java和scala两种依赖jvm的语言,不用区分平台。提到客户端也一定意味着有服务端的存在,服务端主要用于解析网页,提取url,输出内容到相应的存储器,服务端和客户端使用netty进行通讯,这是C/S模式。还有一种cluster模式,将爬虫部署到集群机器上,之间相互通讯协调,完成下载、分析、存储等功能,这种模式下性能和扩展性都能得到提升。那么问题来了,我们怎么保活呢?很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢?很显然是用tcp通讯协议。那么怎么设计spider的客户端呢?首先明确客户端的功能边界,客户端首先必须接受服务端的指令,服务端让爬哪些url就爬哪些url,所以url由服务端统一管理,服务端会从url队列(以域名区分维护不同的url队列)中取出url并封装后传输给客户端,客户端接受到对象和会插入到队列中,然后客户端从队列中取出url爬取网页并解析(相当于scrapy中downloader和spider的功能集合),解析出的信息封装到对象中传给服务端,服务端接收到这个对象后会传入storechannel(可能是hadoop-hdfs,hbase,elasticsearch)。传过来的url会经过验证和去重后存储到内存数据库中,并将url根据host塞入队列。

爬虫的关键技术:

1、抓取效率

2、链接分析(死链、去重)

3、结构化和非结构化数据提取、正文提取

4、垃圾网页过滤(大量的网页)

5、质量识别

6、分类

7、反爬虫

技术架构设计的初稿是这样的:(待修改)



  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值