开源JAVA爬虫crawler4j源码分析 - 3 线程管理

最新推荐文章于 2022-08-30 09:25:06 发布

Kevin龙

最新推荐文章于 2022-08-30 09:25:06 发布

阅读量4.4k

点赞数 4

分类专栏： JAVA crawler4j 文章标签：爬虫线程管理线程安全 crawler4j JAVA爬虫

本文链接：https://blog.csdn.net/longzuyuan/article/details/17441199

版权

JAVA 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

crawler4j

4 篇文章 0 订阅

订阅专栏

要做一个大的系统，得要聘请多个程序员一起工作，同样，要爬取内容庞大的互联网数据，如果只有一只爬虫，当然是不够的。

使用crawler4j只需配置指定数量的线程，就会有指定数量的爬虫线程一起抓取指定的网页内容：

controller.start(BasicCrawler.class, numberOfCrawlers);//numberOfCrawlers:线程数

那么，crawler4j到底是怎样管理这些线程的呢？以下假定指定的是10个线程。

进入CrawlController的start方法：

首先，定义两个List，分别用来存储所有的爬虫线程和实际的爬虫逻辑类：

			final List<Thread> threads = new ArrayList<>();
			final List<T> crawlers = new ArrayList<>();

			for (int i = 1; i <= numberOfCrawlers; i++) {
				T crawler = _c.newInstance();
				Thread thread = new Thread(crawler, "Crawler " + i);
				crawler.setThread(thread);
				crawler.init(i, this);
				thread.start();
				crawlers.add(crawler);
				threads.add(thread);
				logger.info("Crawler " + i + " started.");
			}

循环10次，创建10个线程并启动它们。这时爬虫线程就已经开始工作了，不断的循环爬取页面，我们暂且不管具体单个爬虫是怎么工作的，本文只关注线程管理。

既然线程已经启动并正在工作了，怎么监控它们呢？往下：

			Thread monitorThread = new Thread(new Runnable() {

				@Override
				public void run() {/*...此处省略N个字...*/}
			}

			monitorThread.start();

			if (isBlocking) {
				waitUntilFinish();
			}

创建一个监控的线程并启动，然后主线程开始睡觉直到完成。监控线程monitor不断的、每隔10秒检查一次：

								sleep(10);
								boolean someoneIsWorking = false;
								for (int i = 0; i < threads.size(); i++) {
									Thread thread = threads.get(i);
									if (!thread.isAlive()) {
										if (!shuttingDown) {
											logger.info("Thread " + i + " was dead, I'll recreate it.");
											T crawler = _c.newInstance();
											thread = new Thread(crawler, "Crawler " + (i + 1));
											threads.remove(i);
											threads.add(i, thread);
											crawler.setThread(thread);
											crawler.init(i + 1, controller);
											thread.start();
											crawlers.remove(i);
											crawlers.add(i, crawler);
										}
									} else if (crawlers.get(i).isNotWaitingForNewURLs()) {
										someoneIsWorking = true;
									}
								}

循环遍历每一个爬虫线程，首先看是否还活着，如果线程已死但是爬取工作却还没有结束，则重新创建一个新的线程加入列表，并删除原来已经die的线程，这样可确保一直都有10个线程在工作，防止某个工人不小心掉井下挂了然后影响工期 :)

如果活着，接着检查线程是不是正在干活，即不在等新的URL。什么意思呢？稍微有点绕，1个爬虫线程开始工作后会先去URL地址库领取50个URL，然后对个50个URL进行抓取，把抓取到的新的URL填入URL地址库，完了再去领……10个爬虫线程开始工作后就在URL地址库窗口排队领取，如果第X个领完就木有了，后面那10-X个就只能坐在那打牌了，等着前面X个找到了新URL。这时，只要X>0，则说明整个爬取工作还在进行。假设那X个线程没找着新的URL就回来了，那只能跟着排在后面押宝了。这时monitor线程发现，10个家伙都在打牌押宝，好，说明工作可能完成了，该验收了。

接下来：

								if (!someoneIsWorking) {
									// Make sure again that none of the threads
									// are
									// alive.
									logger.info("It looks like no thread is working, waiting for 10 seconds to make sure...");
									sleep(10);

									someoneIsWorking = false;
									for (int i = 0; i < threads.size(); i++) {
										Thread thread = threads.get(i);
										if (thread.isAlive() && crawlers.get(i).isNotWaitingForNewURLs()) {
											someoneIsWorking = true;
										}
									}
									if (!someoneIsWorking) {
										if (!shuttingDown) {
											long queueLength = frontier.getQueueLength();
											if (queueLength > 0) {
												continue;
											}
											logger.info("No thread is working and no more URLs are in queue waiting for another 10 seconds to make sure...");
											sleep(10);
											queueLength = frontier.getQueueLength();
											if (queueLength > 0) {
												continue;
											}
										}

为了保险起见，再检查一下看看10个工人是不是都还活着并且在打牌。

如果是的，再检查一下URL地址库还有没有URL，如果有，则继续等10秒后再重新查。为什么要这样呢？这是为了防止低概率事件发生，比如第1个工人正在打牌，第10个刚好带着新的URL回来了，也加入打牌队伍，第1个工人正要去领URL时监工monitor来了，看到都在，以为可以收工了，实际上URL地址库还有，所以此时monitor再查一下还有没有剩余的URL没爬取。如果没有了，这时再等10秒看下是否真的没有了，防止刚刚第10个工人刚带回新URL来而错过了。

10秒后发现也没有，收工：

										logger.info("All of the crawlers are stopped. Finishing the process...");
										// At this step, frontier notifies the
										// threads that were
										// waiting for new URLs and they should
										// stop
										frontier.finish();
										for (T crawler : crawlers) {
											crawler.onBeforeExit();
											crawlersLocalData.add(crawler.getMyLocalData());
										}

										logger.info("Waiting for 10 seconds before final clean up...");
										sleep(10);

										frontier.close();
										docIdServer.close();
										pageFetcher.shutDown();

										finished = true;
										waitingLock.notifyAll();

										return;

这些都是收尾工作了。不过作者在这少收了一个，就是忘了把Environment close了，这导致程序不结束的话临时文件也删不掉，把Environment env变成field然后在这加上env.close()就好了。

因主线程还一直在做梦，waitingLock.notifyAll();是叫醒主线程可以结束了，下面是主线程睡觉的位置：

	public void waitUntilFinish() {
		while (!finished) {
			synchronized (waitingLock) {
				if (finished) {
					return;
				}
				try {
					waitingLock.wait();
				} catch (InterruptedException e) {
					e.printStackTrace();
				}
			}
		}
	}

这就是一个JAVA爬虫的线程管理机制，crawler4j以一种相对比较简单但是又比较安全的方法实现了，值得借鉴。