FrontierScheduler的innerprocessor在这里查阅
http://blog.csdn.net/caoxu1987728/archive/2008/05/06/2404593.aspx
package
my.postprocessor;
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;
public class FrontierSchedulerForPconlineMobile extends FrontierScheduler
{
private static Logger LOGGER = Logger.getLogger(FrontierSchedulerForPconlineMobile. class .getName());
public FrontierSchedulerForPconlineMobile(String name)
{
super (name);
}
protected void schedule(CandidateURI caUri)
{
// 取得URL的字符串
String url = caUri.toString();
try
{
// URL选择策略
if (url.indexOf( " product.pconline.com.cn/product/ " ) !=- 1
|| url.indexOf( " img.pconline.com.cn " ) !=- 1
|| url.indexOf( " robots.txt " ) !=- 1
|| url.indexOf( " dns: " ) !=- 1 )
{
// 调用Frontier中的schedule()方法将传入的链接加入到等待队列中
getController().getFrontier().schedule(caUri);
}
else
{
return ;
}
}
catch (Exception e)
{
e.printStackTrace();
}
finally
{
}
}
}
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;
public class FrontierSchedulerForPconlineMobile extends FrontierScheduler
{
private static Logger LOGGER = Logger.getLogger(FrontierSchedulerForPconlineMobile. class .getName());
public FrontierSchedulerForPconlineMobile(String name)
{
super (name);
}
protected void schedule(CandidateURI caUri)
{
// 取得URL的字符串
String url = caUri.toString();
try
{
// URL选择策略
if (url.indexOf( " product.pconline.com.cn/product/ " ) !=- 1
|| url.indexOf( " img.pconline.com.cn " ) !=- 1
|| url.indexOf( " robots.txt " ) !=- 1
|| url.indexOf( " dns: " ) !=- 1 )
{
// 调用Frontier中的schedule()方法将传入的链接加入到等待队列中
getController().getFrontier().schedule(caUri);
}
else
{
return ;
}
}
catch (Exception e)
{
e.printStackTrace();
}
finally
{
}
}
}
基本流程:
1,写管理日志Logger;
2,构造函数;
3,调用schedule(CandidateURI caUri)。这里最重要的是getController().getFrontier().schedule(caUri);
运行后,在mirror里应该只有img.pconline.com.cn、product.pconline.com.cn和pdlib.pconline.com.cn。可是我却仍然得到一大堆不重要的文件夹,不知为何