Webmagic是一款相对简单,使用方便的java爬虫,介绍就不多说了,简单记录一下,添加接口来让爬虫更加灵活
@Data
@Accessors(chain = true)
@Component
public class ReptilesProcessor implements PageProcessor {
//爬取的页面css属性
private String css;
//其他页面的url的css标签
private String pageDownUrl;
/**
* 爬虫核心抓取器
* @param page
*/
@Override
public void process(Page page)