最近和同学参加中国软件杯比赛选题是聚焦搜索引擎,项目中我用到了HtmlParser和Heritrix,可惜项目进度缓慢,在这里就把自己这2个星期的所得写下来吧。
关于Heritrix的在Eclipse中的配置可以在 此网页中找到,这里就不再赘述,在上一篇中介绍了如何用HtmlParser解析Pconline,下面就是Heritrix的部分。当然肯定有很多其他的实现方式,下面是在下的方法,供各位看管参考,。
这便是Heritrix的URI处理链,(Heritrix中的URI其实和我们平时所说的URL到底有什么区别,我也不是很清楚。)
这个处理连你可以理解为链接在这个处理链中走了一遍。其中write主要负责将EXTRATOR获取到的内容写到磁盘(当然也可以是数据库神马的)。这里我们就要用到WRITE这一环。Heritrix中的处理链都继承于process。
public class PconlineWriter extends Processor{
public PconlineWriter(String name, String description) {
super(name, description);
// TODO Auto-generated constructor stub
}
public PconlineWriter(String name) {
super(name, "this is a writer for pconline");
// TODO Auto-generated constructor stub
}
protected void innerProcess(CrawlURI curi){
UURI uri = curi.getUURI();
String url = uri.toString();
if (url.contains("product.pconline.com.cn")&&url.endsWith(".html")&&url.indexOf("product.pconline.com.cn/pdlib") == -1)
try{
BuildTxt(url);
}catch(Exception e){
e.printStackTrace();
}
}
public static String GetPconlinePlainText_String(String content){
String returnString ="";
try{
if(content != null){
Parser parser = new Parser(content);
parser.setEncoding("gbk");
NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
NodeList nodelist = parser.parse(liFilter);
NodeIterator it = nodelist.elements();
while(it.hasMoreNodes()){
Node node = (Node)it.nextNode();
returnString += node.toPlainTextString();
}
}
}catch(Exception e){
e.printStackTrace();
}
return returnString;
}
public static String GetPconlinePlainText(String url){
ConnectionManager manager = new ConnectionManager();
String returnString ="";
try{
if(url != null){
Parser parser = new Parser(manager.openConnection(url));
parser.setEncoding("gbk");
NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
NodeList nodelist = parser.parse(liFilter);
NodeIterator it = nodelist.elements();
while(it.hasMoreNodes()){
Node node = (Node)it.nextNode();
returnString += node.toPlainTextString();
}
}
}catch(Exception e){
e.printStackTrace();
}
return returnString;
}
public static String Geth1(String url){
ConnectionManager manager = new ConnectionManager();
String h1 = "";
try{
Parser parser = new Parser(manager.openConnection(url));
NodeFilter h1Node = new TagNameFilter("h1");
NodeList nodelist = parser.parse(h1Node);
h1 = nodelist.elementAt(0).toPlainTextString();
}catch(Exception e){
e.printStackTrace();
}
return h1;
}
public static void BuildTxt(String url) throws IOException{
String title = Geth1(url);
String content = url+"\r\n"+title+"\r\n"+GetPconlinePlainText(url);
FileWriter writer = new FileWriter("E:\\"+title+".txt");
writer.write(content);
writer.flush();
}
}
这样我们便写成了一个Writer,打开Heritrix新建一个任务,将writer部分替换成为我们自己的WRITER就可以了。试验一下吧。。