不知道这样合不合适,因为webmagic是黄亿华大神的作品,我在这只是写一下自己的心得,希望帮助大家更好的上手,毕竟大神考虑的想法和我们小虾还是有很大的差别的,至少之前我理解起来还是有点困难。
本文以爬取csdn博客网站为例(https://blog.csdn.net/nav/newarticles )。webmagic是什么,简单来说是一个爬虫框架(废话)。他能够更加简单的进行爬虫,本质上就是httpclient(httpclient是什么,不需要知道,只需要知道用它能够获取到网页数据即可)模拟请求获得html页面然后根据xpath(xpath是什么,不需要知道,只需要知道我告诉你的几个常用语法即可)进行解析。
PS:是不是有点不负责任,这个也不讲清楚,那个也不说明白。其实不是我不想说,是因为我说的都不如百度上面写的好,所以说了没用,我就算粘贴过来别人也不看,所以没用,我觉得只要会用就好了。马老师(马士兵)教育我们说学习编程都是先学脉络在学细节,我想说的是我就交你们脉络,因为细节我也在学习,哈哈~~
好,开始学习。
首先是环境搭建,最好用maven工程,本例子也是maven工程实现的。pom配置如下:
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:s