通过HtmlParser+Heritrix抓取PCONLINE网页(Heritrix篇)

2 篇文章 0 订阅
2 篇文章 0 订阅

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎,项目中我用到了HtmlParser和Heritrix,可惜项目进度缓慢,在这里就把自己这2个星期的所得写下来吧。

关于Heritrix的在Eclipse中的配置可以在 此网页中找到,这里就不再赘述,在上一篇中介绍了如何用HtmlParser解析Pconline,下面就是Heritrix的部分。当然肯定有很多其他的实现方式,下面是在下的方法,供各位看管参考,。

这便是Heritrix的URI处理链,(Heritrix中的URI其实和我们平时所说的URL到底有什么区别,我也不是很清楚。)微笑

这个处理连你可以理解为链接在这个处理链中走了一遍。其中write主要负责将EXTRATOR获取到的内容写到磁盘(当然也可以是数据库神马的)。这里我们就要用到WRITE这一环。Heritrix中的处理链都继承于process。

public class PconlineWriter extends Processor{

	public PconlineWriter(String name, String description) {
		super(name, description);
		// TODO Auto-generated constructor stub
	}
	public PconlineWriter(String name) {
		super(name, "this is a writer for pconline");
		// TODO Auto-generated constructor stub
	}
    protected void innerProcess(CrawlURI curi){
    	UURI uri = curi.getUURI();
    	String url = uri.toString();
    	if (url.contains("product.pconline.com.cn")&&url.endsWith(".html")&&url.indexOf("product.pconline.com.cn/pdlib") == -1)
    	try{
    			BuildTxt(url);
    	}catch(Exception e){
    		e.printStackTrace();
    	}
    }
    public static String GetPconlinePlainText_String(String content){
		String returnString ="";
		try{
			if(content != null){
				Parser parser = new Parser(content);
				parser.setEncoding("gbk");
				NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
				NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
				NodeList nodelist = parser.parse(liFilter);
				NodeIterator it = nodelist.elements();
				while(it.hasMoreNodes()){
					Node node = (Node)it.nextNode();
					returnString += node.toPlainTextString();
			}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
	}
	public static String GetPconlinePlainText(String url){
		ConnectionManager manager = new ConnectionManager();
		String returnString ="";
		try{
			if(url != null){
		Parser parser = new Parser(manager.openConnection(url));
		parser.setEncoding("gbk");
		NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
		NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
		NodeList nodelist = parser.parse(liFilter);
		NodeIterator it = nodelist.elements();
		while(it.hasMoreNodes()){
			Node node = (Node)it.nextNode();
			returnString += node.toPlainTextString();
		}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
		
	}
	public static String Geth1(String url){
		ConnectionManager manager = new ConnectionManager();
		String h1 = "";
		try{
			Parser parser = new Parser(manager.openConnection(url));
			NodeFilter h1Node = new TagNameFilter("h1");
			NodeList nodelist = parser.parse(h1Node);
			h1 = nodelist.elementAt(0).toPlainTextString();
		}catch(Exception e){
			e.printStackTrace();
		}
		return h1;
	
	}
	public static void BuildTxt(String url) throws IOException{
		String title = Geth1(url);
		String content = url+"\r\n"+title+"\r\n"+GetPconlinePlainText(url);
		FileWriter writer = new FileWriter("E:\\"+title+".txt");
		writer.write(content);
		writer.flush();
	}


}
这样我们便写成了一个Writer,打开Heritrix新建一个任务,将writer部分替换成为我们自己的WRITER就可以了。试验一下吧。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值