- 博客(2)
- 资源 (3)
- 收藏
- 关注
原创 开发一款开源爬虫框架系列(二):设计爬虫架构
既然是构建分布式爬虫架构,分布式说明爬虫能在多台机器同时运行,所以一定是多客户端的,多客户端就有可能运行在不同的操作系统不同的语言环境,所以我们让它暂时支持java和scala两种依赖jvm的语言,不用区分平台。提到客户端也一定意味着有服务端的存在,服务端和客户端使用netty进行通讯。那么问题来了,我们怎么保活呢?很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢?很显然是用tcp通讯协
2016-09-09 14:18:40 2987
原创 开发一款开源爬虫框架系列(一):分析nutch,scrapy的爬虫设计
nutch的架构分析 injector首次会从url.txt中取出url然后将url分配给hadoop中的不同job进行url标准化和校验,并构造对象。generator会利用hadoop中不同的job进行url过滤、打分和计算hash值,然后将信息存入ParseSegment,fetcher会利用多线程下载网页将内容存入content,将url返回给crawl_fetch,crawl
2016-09-07 01:48:24 5029
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人