![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
不了痕
风景很美,常回头看看
展开
-
基于webmagic爬取并下载百度图片
最近想下载一些图片,在一次一次另存为之后实在受不了了,于是写了一个小程序直接把图片下载下来 现把代码贴出,以供参考吧 import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; import us.codecraft.webmagic.Page; import us.codecraft.webma原创 2017-02-05 21:26:41 · 4750 阅读 · 8 评论 -
webmagic是个神奇的爬虫(一)--如何创建webmagic项目
本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。 废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建: maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可原创 2017-03-11 09:05:50 · 19124 阅读 · 0 评论 -
webmagic是个神奇的爬虫(二)-- webmagic爬取流程细讲
webmagic流程图镇楼: 第一篇笔记讲到了如何创建webmagic项目,这一讲来说一说webmagic爬取的主要流程。 webmagic主要由Downloader(下载器)、PageProcesser(解析器)、Schedule(调度器)和Pipeline(管道)四部分组成。 从流程图上可以看出,webmagic爬取信息首先需要依赖给出的一个初始爬取的地址,下载器会下原创 2017-03-12 18:02:48 · 22082 阅读 · 3 评论 -
webmagic是个神奇的爬虫【三】—— 使用selenium模拟登陆
selenium本身是一种自动化测试工具,可以模拟浏览器进行页面的加载,好处在于能通过程序,自动的完成例如页面登录、AJAX内容获取的的操作。 尤其是获取AJAX生成的动态信息方面,一般爬虫只会获取当前页面的静态信息,不会加载动态生成的内容,但是selenium则完美的帮我们实现了这一功能。 但同样他也有一些不好的地方,就是使用selenium功能的时候,需要事先加载selenium的驱动,在原创 2017-05-03 00:29:36 · 10465 阅读 · 4 评论