【网络爬虫】数据的采集——爬取土木在线网的数据

最新推荐文章于 2024-09-03 23:13:01 发布

Aries丶方

最新推荐文章于 2024-09-03 23:13:01 发布

阅读量2.2k

点赞数

分类专栏：大数据文章标签： Heritrix 网络爬虫

本文链接：https://blog.csdn.net/f627422467/article/details/50155599

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

通过上篇文章的介绍，对Heritrix有了一定的了解。今天自己定义爬取逻辑，对土木在线网的图纸信息进行了爬取。我讲的不是很详细，大家可以去看看视频：

http://edu.ibeifeng.com/view-video-id-491.html

首先，在后台定义爬取的逻辑，通过观察土木在线网（www.co188.com）的网页链接，我们发现，同一类目下，仅仅尾部不同，因此用正则表达式去代替。 \\d+ ：代表多了数字

\\w+ ：代表字符

.*(/|\.html)$| ：html的正则表达式。

因此我们对于要下载的网页进行一个过虑：

。

在这个包下面定义一个类，继承FrontierScheduler，重写schedule方法。这里有个JAVASE的基础。你去继承 FrontierScheduler这个类时，会发现，必须要有个带参数的构造方法。原因是父类的无参构造方法被一个参数的构造方法覆盖。这里必须有一个有参构造方法。JAVASE基础扎实的同学，可能知道，这里也算一个知识的积累吧。

只有从未入队列的URL集合中抽取出来的URL满足匹配http://ziliao.co188.com/drawing9258/p\\d+.html的URL即可放到URL队列，对其进行下载。

package org.archive.crawler.postprocessor;

import org.archive.crawler.datamodel.CandidateURI;

public class FrontierSchedulerForHpu extends FrontierScheduler {

	/**
	 * 
	 */
	private static final long serialVersionUID = 1L;
	//继承父类时所需要的一个参数的构造函数
	public FrontierSchedulerForHpu(String name) {
		super(name);
		// TODO Auto-generated constructor stub
	}

	
	protected void schedule(CandidateURI caUri) {
		String Url = caUri.toString();
		if(Url.matches("http://ziliao.co188.com/drawing9258/p\\d+.html")){
			System.out.println(Url);
			getController().getFrontier().schedule(caUri);
		}
	}
}

在这边定义完毕之后，启动Heritrix。

在WEBUI界面，去新建我们的job。若是第一次新建job，可以使用默认值新建job。