如何在后台运行Heritrix

1.首先在jobs文件夹下创建一个新文件夹并在其中加入order.xml和seed.txt文件,这两个文件可从其他爬取任务文件夹中复制。

2.在src包下加入这个类:

     import java.io.File;  

    import javax.management.InvalidAttributeValueException;  
    import org.archive.crawler.event.CrawlStatusListener;  
    import org.archive.crawler.framework.CrawlController;  
    import org.archive.crawler.framework.exceptions.InitializationException;  
    import org.archive.crawler.settings.XMLSettingsHandler;  
      
    public class StartHeritrixByEclipse {  
      
        public static void main(String[] args) throws InterruptedException {  
            String orderFile = "......../order.xml";//新建的order.xml文件路径  
            File file = null;   //order.xml文件  
              
            CrawlStatusListener listener = null;//监听器  
            XMLSettingsHandler handler = null;  //读取order.xml文件的处理器  
            CrawlController controller = null;  //Heritrix的控制器  
            try {  
                file=new File(orderFile);  
                handler = new XMLSettingsHandler(file);  
                handler.initialize();//读取order.xml中的各个配置  
      
                controller = new CrawlController();//  
                controller.initialize(handler);//从读取的order.xml中的各个配置来初始化控制器  
      
                if (listener != null) {  
                    controller.addCrawlStatusListener(listener);//控制器添加监听器  
                }  
                controller.requestCrawlStart();//开始抓取  
                  
                /*
                 * 如果Heritrix还一直在运行则等待
                 */  
                while (true) {  
                    if (controller.isRunning() == false) {  
                        break;  
                    }  
                    Thread.sleep(1000);  
                }  
                  
                //如果Heritrix不再运行则停止  
                controller.requestCrawlStop();  
      
            } catch (InvalidAttributeValueException e) {  
                // TODO Auto-generated catch block  
                e.printStackTrace();  
            } catch (InitializationException e) {  
                // TODO Auto-generated catch block  
                e.printStackTrace();  
            } catch (InterruptedException e) {  
                // TODO Auto-generated catch block  
                e.printStackTrace();  
            }  
      
        }  
      

    } 



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值