自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

flashflight的专栏

was a coder, is a coder, to be a coder!

  • 博客(2)
  • 资源 (3)
  • 收藏
  • 关注

原创 开发一款开源爬虫框架系列(二):设计爬虫架构

既然是构建分布式爬虫架构,分布式说明爬虫能在多台机器同时运行,所以一定是多客户端的,多客户端就有可能运行在不同的操作系统不同的语言环境,所以我们让它暂时支持java和scala两种依赖jvm的语言,不用区分平台。提到客户端也一定意味着有服务端的存在,服务端和客户端使用netty进行通讯。那么问题来了,我们怎么保活呢?很显然是用心跳管理能完成这个功能。那么我们怎么保证可靠性呢?很显然是用tcp通讯协

2016-09-09 14:18:40 2987

原创 开发一款开源爬虫框架系列(一):分析nutch,scrapy的爬虫设计

nutch的架构分析   injector首次会从url.txt中取出url然后将url分配给hadoop中的不同job进行url标准化和校验,并构造对象。generator会利用hadoop中不同的job进行url过滤、打分和计算hash值,然后将信息存入ParseSegment,fetcher会利用多线程下载网页将内容存入content,将url返回给crawl_fetch,crawl

2016-09-07 01:48:24 5029

深入浅出

深入浅出MFC\学习MFC的经典教材快点来下哦!

2012-03-10

ARM处理器常用指令说明文件

这是一个ARM最新的常用指令集,对于刚学习ARM的人非常有用

2010-05-16

基于PIC入库巡线小车程序

关于巡线小车的具体程序,具体含有巡线,入库两部分程序,并附有详细注释

2008-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除