自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不了痕的博客

知道的越多,知道的就越少

  • 博客(2)
  • 问答 (7)
  • 收藏
  • 关注

原创 webmagic是个神奇的爬虫(二)-- webmagic爬取流程细讲

webmagic流程图镇楼: 第一篇笔记讲到了如何创建webmagic项目,这一讲来说一说webmagic爬取的主要流程。 webmagic主要由Downloader(下载器)、PageProcesser(解析器)、Schedule(调度器)和Pipeline(管道)四部分组成。 从流程图上可以看出,webmagic爬取信息首先需要依赖给出的一个初始爬取的地址,下载器会下

2017-03-12 18:02:48 22106 3

原创 webmagic是个神奇的爬虫(一)--如何创建webmagic项目

本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。 废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建: maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可

2017-03-11 09:05:50 19143

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除