我采用的是webmagic来进行爬虫的编写
以下是webmagic的文档
http://webmagic.io/docs/zh/
下面来创建第一个爬虫项目–使用idea创建一个Maven项目
在pom.xml文件中引入依赖
之后添加一个类来继承PageProcessor并实现下列两个方法
package PaChongText;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class PaChong implements PageProcessor {
public static void main(String[] args) {
//爬虫的启动入口
Spider.create(new PaChong()).addUrl("http://www.4399.com/").run();
}
public void process(Page page) {
//打印页面的内容
System.out.println(page.getHtml().toString());
}
public Site getSite() {
//setSleepTime--爬取间隔,setRetryTimes--爬取次数
return Site.me().setSleepTime(100).setRetryTimes(3);
}
}
之后启动main方法在控制台可以看到已经抓取到了页面