WebMagic爬图片,简单
jar包等就不导了,直接上代码。
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
/**
* @author ZFH
* @version 创建时间:2018年11月17日 上午8:34:55
*/
/**
* @author ZFH
* @version 创建时间:2018年11月17日 上午8:34:55
*/
public class WebmagicUtilP implements PageProcessor{
/**
* 爬取的列表页,页数。
*/
/**
* 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等
*/
private Site site = Site.me().setSleepTime(1000).setRetryTimes(3);
/**
* 爬取图片
*/
int j=1;
public void process(Page page) {
//获取图片
while(page.getHtml().xpath("//span[@class=\"RichText ztext CopyrightRichText-richText\"]/figure["+j+"]/img").css("img","data-original").toString()!=null) {
String string1 = page.getHtml().xpath("//span[@class=\"R