2016年09月_闲庭细步

11月 09月 08月 07月 06月 05月 04月 03月 02月

原创开发一款开源爬虫框架系列（二）：设计爬虫架构

既然是构建分布式爬虫架构，分布式说明爬虫能在多台机器同时运行，所以一定是多客户端的，多客户端就有可能运行在不同的操作系统不同的语言环境，所以我们让它暂时支持java和scala两种依赖jvm的语言，不用区分平台。提到客户端也一定意味着有服务端的存在，服务端和客户端使用netty进行通讯。那么问题来了，我们怎么保活呢？很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢？很显然是用tcp通讯协

2016-09-09 14:18:40 2987

原创开发一款开源爬虫框架系列（一）：分析nutch，scrapy的爬虫设计

nutch的架构分析 injector首次会从url.txt中取出url然后将url分配给hadoop中的不同job进行url标准化和校验，并构造对象。generator会利用hadoop中不同的job进行url过滤、打分和计算hash值，然后将信息存入ParseSegment,fetcher会利用多线程下载网页将内容存入content，将url返回给crawl_fetch,crawl

2016-09-07 01:48:24 5029

深入浅出

深入浅出MFC\学习MFC的经典教材快点来下哦！

2012-03-10

ARM处理器常用指令说明文件

这是一个ARM最新的常用指令集，对于刚学习ARM的人非常有用

2010-05-16

基于PIC入库巡线小车程序

关于巡线小车的具体程序，具体含有巡线，入库两部分程序，并附有详细注释

2008-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 开发一款开源爬虫框架系列（二）：设计爬虫架构