WebMagic资料
官方教程 http://webmagic.io/docs/zh/
官方网址 http://webmagic.io/
代码实现
爬取华为应用市场应用信息,统计华为应用市场应用数量,启动20个线程,自定义MyPiple来保存数据。
AppStoreProcessor.java主类
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;
/**
* @author wzj
* @create 2018-07-17 22:06
**/
public class AppStoreProcessor implements PageProcessor
{
// 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等
private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
public void process(Page page)
{
//获取名称
String name = page.getHtml().xpath("//p/span[@class=&#