WebMagic爬虫框架获取a标签的href属性

public class WebMagicUtil implements PageProcessor{
	private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000);

    public void process(Page page) {
     //爬取id为chapter-list-4下的a标签属性为href
      List<String>list=page.getHtml().$("#chapter-list-4").$("a","href").all();
      System.out.println(list.size());
    }

    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
    	 String url="https://www.codetansuozhe.com";
        Spider.create(new WebMagicUtil()).addUrl(url).thread(1).run();
    }
}

更多学习资料尽在个人博客

发布了5 篇原创文章 · 获赞 0 · 访问量 227
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览