扩展FrontierScheduler来达到筛选的目的

FrontierScheduler的innerprocessor在这里查阅

 http://blog.csdn.net/caoxu1987728/archive/2008/05/06/2404593.aspx

package  my.postprocessor;

import  java.util.logging.Logger;
import  org.archive.crawler.datamodel.CandidateURI;
import  org.archive.crawler.postprocessor.FrontierScheduler;

public   class  FrontierSchedulerForPconlineMobile  extends  FrontierScheduler
{
    
private   static  Logger LOGGER = Logger.getLogger(FrontierSchedulerForPconlineMobile. class .getName());
    
public  FrontierSchedulerForPconlineMobile(String name)
    {
        
super (name);
    }
    
protected   void  schedule(CandidateURI caUri)
    {
        
// 取得URL的字符串
        String url = caUri.toString();
        
try
        {
            
// URL选择策略
             if (url.indexOf( " product.pconline.com.cn/product/ " ) !=- 1
                
|| url.indexOf( " img.pconline.com.cn " ) !=- 1
                
|| url.indexOf( " robots.txt " ) !=- 1
                
|| url.indexOf( " dns: " ) !=- 1 )
            {
                
// 调用Frontier中的schedule()方法将传入的链接加入到等待队列中
                getController().getFrontier().schedule(caUri);
            }
            
else
            {
                
return ;
            }
        }
        
catch (Exception e)
        {
            e.printStackTrace();
        }
        
finally
        {
        }
    }
}

基本流程:

1,写管理日志Logger;

2,构造函数;

3,调用schedule(CandidateURI caUri)。这里最重要的是getController().getFrontier().schedule(caUri);

运行后,在mirror里应该只有img.pconline.com.cn、product.pconline.com.cn和pdlib.pconline.com.cn。可是我却仍然得到一大堆不重要的文件夹,不知为何

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值