自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 广域网分布式 Web 爬虫(二)

网格的特性使其能够支持广域网部署.1.2 分布式爬虫的基本结构和工作流程由于爬虫要下载多个网页,而各个网页的下载过程之间依赖性较小,因此可以被并行化.为了高效地下载网页,爬虫程序一般被设计为多线程和多进程协同的方式,而分布式爬虫是将多个具有抓取网页功能的 Agent 分别部署于多个计算资源之上的爬虫程序.以下是分布式爬虫中每个 Agent 的大致工作流程(其中,左侧...

2011-05-25 15:07:12 120

原创 广域网分布式 Web 爬虫

人们的日常生活中发挥着重要的作用.然而,互联网的飞速发展使搜索引擎面临巨大的挑战.2008 年 1 月发布的《第 21 次中国互联网络发展状况统计报告》[1]显示,中国网站数量已达 150 万个,比去年同期增长了 66 万个,增长率达到 78.4%;中国总网页数为 84.7 亿个,年增长率达到 89.4%;网站总字节数已经达到 198 348GB.按照目前的统计数字,假设搜...

2011-05-25 15:05:58 209

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除