WebMagic高级用法

Maven依赖

<dependencies>
		<dependency>
		    <groupId>us.codecraft</groupId>
		    <artifactId>webmagic-core</artifactId>
		    <version>0.7.3</version>
		</dependency>
		<dependency>
		    <groupId>us.codecraft</groupId>
		    <artifactId>webmagic-extension</artifactId>
		    <version>0.7.3</version>
		</dependency>
	</dependencies>

设置PageProcessor

设置请求header、cookie,很多网站都要专门的header才能正确网站,否则会出现访问错误

使用skip来阻止pipline处理

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class GithubRepoPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000)
    		.addHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36");

    @Override
    public void process(Page page) {
    	if(!page.getUrl().toString().startsWith("https://github.com/code4craft")){
    		//skip为true,则不会通知pipeline处理
    		page.setSkip(true);
    	}
    	page.addTargetRequests(page.getHtml().links().regex("https://github\\.com/code4craft.*").all());
    }

    @Override
    public Site getSite() {
    	//header、cookie在Site对象里面设置
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(1).run();
    }
}

设置pipline

自定义实现爬取数据的输出,比如调用http接口上传数据

package com.lenovo.spider;

import java.io.File;
import java.io.IOException;
import java.util.Date;
import java.util.List;
import java.util.Map;
import java.util.concurrent.Executors;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.ScheduledExecutorService;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.atomic.AtomicInteger;

import org.apache.commons.io.FileUtils;
import org.apache.commons.lang3.math.NumberUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import com.lenovo.exception.NetException;
import com.lenovo.spider.http.HttpInterface;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

public class QiChaChaPipline implements Pipeline {

	private Logger logger = LoggerFactory.getLogger("spider");
	private static AtomicInteger uploadCount;
	private static ScheduledExecutorService threadPool = Executors.newScheduledThreadPool(1);

	private static final LinkedBlockingQueue<JSONObject> dataQueue = new LinkedBlockingQueue<>(100 * 10000);

	public QiChaChaPipline() {
		threadPool.execute(() -> upload());
	}

	@Override
	public void process(ResultItems resultItems, Task task) {

		JSONObject company = new JSONObject(resultItems.get("company_map"));
		dataQueue.offer(company);
	}

	public void upload() {
		while (true) {
			JSONObject company = null;
			try {
				company = dataQueue.take();
			} catch (InterruptedException e1) {}
			if (company != null) {
				try {
					HttpInterface.uploadCompanyInfo(company);
					logger.info(company.toString());
					logger.debug("上传统计:" + uploadCount.incrementAndGet());
				} catch (NetException e) {
					dataQueue.offer(company);
				}
			}
		}
	}
}
QiChaChaPipline pipline = new QiChaChaPipline();
spider.addPipeline(pipline);

设置downloader

WebMagic默认使用HttpClientDownloader,如果要在下载失败后切换代理ip如下:

Spider spider = Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(1);
        HttpClientDownloader downloader = new HttpClientDownloader(){
			@Override
			protected void onError(Request request) {
				setProxyProvider(SimpleProxyProvider.from(new Proxy("10.10.10.10", 8888)));
			}
		};
		spider.setDownloader(downloader);

使用SelenuimDownloader下载js动态渲染过后的网页,不过SelenuimDownloader有点软肋就是默认的WebDriverPool不能设置代理ip,要能设置代理ip必须重写WebDriverPool和SelenuimDownloader

scheduler

默认的scheduler就会自动去重已经爬取过的url

使用RedisScheduler实现分布式爬虫,共享爬取队列,重启爬虫不会导致从头开始爬

RedisScheduler scheduler = new RedisScheduler(new JedisPool("10.100.124.206", 6379));
//    	FileCacheQueueScheduler scheduler = new FileCacheQueueScheduler("urls");
//    	QueueScheduler scheduler = new QueueScheduler();
spider.setScheduler(scheduler);

设置spider

设置页面下载成功、失败的监听器,方便失败的时候做一些善后处理,比如把失败的url再加入到爬取队列里面,这样就不会遗漏一些页面的爬取

手动添加爬去url到待爬队列,通过设置Request.CYCLE_TRIED_TIMES设置失败重试次数,可以强制把url加到待爬队列里面,避免去重机制把url看成已爬过的

ArrayList<SpiderListener> listeners = new ArrayList<>();
    		listeners.add(new SpiderListener() {
				@Override
				public void onSuccess(Request request) {}
				
				@Override
				public void onError(Request request) {
					Integer cycleTriedTimes = 
(Integer)request.getExtra(Request.CYCLE_TRIED_TIMES);
			request.putExtra(Request.CYCLE_TRIED_TIMES, 
					cycleTriedTimes == null ? 1 : cycleTriedTimes + 1);
			spider.addRequest(request);
				}
			});
    		spider.setSpiderListeners(listeners);

尽量使用xpath

因为css选择器语法各开源支持有很多细节的不统一,而xpath有统一的标准,一般不会出错

打印WebMagic框架内日志

WebMagic使用的是slf4j api打印日志,只需加入log4j.xml日志配置文件到classpath路径就可以打印日志

<?xml version="1.0" encoding="UTF-8"?>    
<!DOCTYPE log4j:configuration SYSTEM "log4j.dtd">

<log4j:configuration xmlns:log4j='http://jakarta.apache.org/log4j/'>

	<appender name="consoleAppender" class="org.apache.log4j.ConsoleAppender">
		<layout class="org.apache.log4j.PatternLayout">
			<param name="ConversionPattern" value="[%p] [%d{yyyy-MM-dd HH:mm:ss}] [%l] [%t] %m%n" />
		</layout>
	</appender>

	<root>
		<priority value="debug" />
		<appender-ref ref="consoleAppender" />
	</root>

</log4j:configuration>

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
WebMagic 是一个基于 Java 的简单灵活的爬虫框架,支持多线程抓取,支持分布式抓取,支持自定义扩展。WebMagic 的使用非常灵活,可以通过编写 Java 代码来实现各种网站的爬取。下面是一个使用 WebMagic 抓取网页并将结果以 JSON 格式输出的例子: ```java import us.codecraft.webmagic.*; import us.codecraft.webmagic.pipeline.JsonFilePipeline; import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webmagic.selector.Selectable; public class MyPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) { Selectable title = page.getHtml().xpath("//title/text()"); Selectable content = page.getHtml().xpath("//div[@class='content']/text()"); page.putField("title", title.get()); page.putField("content", content.get()); } @Override public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new MyPageProcessor()) .addUrl("http://www.example.com") .addPipeline(new JsonFilePipeline("D:\\webmagic\\")) .run(); } } ``` 在这个例子中,我们定义了一个 `MyPageProcessor` 类,实现了 `PageProcessor` 接口,重写了 `process` 方法和 `getSite` 方法。在 `process` 方法中,我们使用了 WebMagic 提供的 `Selectable` 类来选择需要抓取的内容,并将结果保存到 `Page` 对象中。在 `getSite` 方法中,我们设置了一些爬虫的配置信息,例如重试次数和抓取间隔时间。在 `main` 方法中,我们创建了一个 `Spider` 对象,指定了需要抓取的网址和输出结果的格式,然后运行爬虫

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值