通过HtmlParser+Heritrix抓取PCONLINE网页(HtmlParser篇)

2 篇文章 0 订阅
2 篇文章 0 订阅

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎,项目中我用到了HtmlParser和Heritrix,可惜项目进度缓慢,在这里就把自己这2个星期的所得写下来吧。

说真的在百度上面搜索的话10篇里面有9篇都是复制粘贴的,感觉资料少让自己走了很多的弯路。抓狂

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

HtmlParser顾名思义HTML Parser is a Java library used to parse HTML。具体的文档大家可以去官网上面看。


从这里就能看到PCONLINE的产品页面都是同样的布局,所用的产品信息都放在ul.param.clerafix中,大家可以用火狐的页面查看功能很方便的查看,由此我们可以很方便的解析出页面中所要的信息。


	public static String GetPconlinePlainText(String url){
		ConnectionManager manager = new ConnectionManager();
		String returnString ="";
		try{
			if(url != null){
		Parser parser = new Parser(manager.openConnection(url));
		parser.setEncoding("gbk");
		NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
		NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
		NodeList nodelist = parser.parse(liFilter);
		NodeIterator it = nodelist.elements();
		while(it.hasMoreNodes()){
			Node node = (Node)it.nextNode();
			returnString += node.toPlainTextString();
		}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
		
	}

上面代码中的AndFilter即表示参数一和二都要符合的Node.当然你还可以得到网页中h1标签中的内容,也就是这个物品的主要名称。

当然Parser一共有3总重载,具体的大家可以阅读源码,特别要提一下的是如果你想用HtmlParser解析字串符的话就直接将字串符作为参数构造一个Parser就OK了。

	public static String Geth1(String url){
		ConnectionManager manager = new ConnectionManager();
		String h1 = "";
		try{
			Parser parser = new Parser(manager.openConnection(url));
			NodeFilter h1Node = new TagNameFilter("h1");
			NodeList nodelist = parser.parse(h1Node);
			h1 = nodelist.elementAt(0).toPlainTextString();
		}catch(Exception e){
			e.printStackTrace();
		}
		return h1;
	
	}




  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值