Storm【实践系列-如何写一个爬虫】 - Storm-CrawlTopology

最新推荐文章于 2021-02-19 22:33:01 发布

weixin_34292924

最新推荐文章于 2021-02-19 22:33:01 发布

阅读量125

点赞数

文章标签：大数据爬虫 python

原文链接：https://my.oschina.net/infiniteSpace/blog/299689

版权

2019独角兽企业重金招聘Python工程师标准>>>

本章主题:

简单的描述如何用Storm来写一个Crawler的工具。

阅读背景：

1：您可能需要了解基本的爬虫知识。

2：您可能需要对HTTP协议有初步了解。

3：您可能需要对Storm计算的逻辑有初步的了解。

package com.digitalpebble.storm.crawler;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;
import backtype.storm.tuple.Fields;

import com.digitalpebble.storm.crawler.bolt.IPResolutionBolt;
import com.digitalpebble.storm.crawler.bolt.indexing.IndexerBolt;
import com.digitalpebble.storm.crawler.bolt.parser.ParserBolt;
import com.digitalpebble.storm.crawler.fetcher.Fetcher;
import com.digitalpebble.storm.crawler.spout.RandomURLSpout;

/**
 * 整体爬虫引擎的topology
 */
public class CrawlTopology {

	public static void main(String[] args) throws Exception {

		TopologyBuilder builder = new TopologyBuilder();

		builder.setSpout("spout", new RandomURLSpout());

		builder.setBolt("ip", new IPResolutionBolt()).shuffleGrouping("spout");

		builder.setBolt("fetch", new Fetcher()).fieldsGrouping("ip",
				new Fields("ip"));

		builder.setBolt("parse", new ParserBolt()).shuffleGrouping("fetch");

		builder.setBolt("index", new IndexerBolt()).shuffleGrouping("parse");

		Config conf = new Config();
		conf.setDebug(true);
		conf.registerMetricsConsumer(DebugMetricConsumer.class);

		if (args != null && args.length > 0) {
			conf.setNumWorkers(3);

			StormSubmitter.submitTopology(args[0], conf,
					builder.createTopology());
		} else {
			conf.setMaxTaskParallelism(3);

			LocalCluster cluster = new LocalCluster();
			cluster.submitTopology("crawl", conf, builder.createTopology());

			Thread.sleep(10000);

			cluster.shutdown();
		}
	}
}