通过HtmlParser+Heritrix抓取PCONLINE网页（HtmlParser篇）

最新推荐文章于 2024-08-14 10:15:39 发布

置顶脑中有飞鸟

最新推荐文章于 2024-08-14 10:15:39 发布

阅读量1k

点赞数 1

分类专栏： HtmlParser Heritrix Pconline 爬虫文章标签： string exception manager url library html

本文链接：https://blog.csdn.net/chenzmeans/article/details/7573743

版权

HtmlParser 同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

Heritrix

2 篇文章 0 订阅

订阅专栏

Pconline

2 篇文章 0 订阅

订阅专栏

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎，项目中我用到了HtmlParser和Heritrix，可惜项目进度缓慢，在这里就把自己这2个星期的所得写下来吧。

说真的在百度上面搜索的话10篇里面有9篇都是复制粘贴的，感觉资料少让自己走了很多的弯路。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

HtmlParser顾名思义HTML Parser is a Java library used to parse HTML。具体的文档大家可以去官网上面看。

从这里就能看到PCONLINE的产品页面都是同样的布局，所用的产品信息都放在ul.param.clerafix中，大家可以用火狐的页面查看功能很方便的查看，由此我们可以很方便的解析出页面中所要的信息。

	public static String GetPconlinePlainText(String url){
		ConnectionManager manager = new ConnectionManager();
		String returnString ="";
		try{
			if(url != null){
		Parser parser = new Parser(manager.openConnection(url));
		parser.setEncoding("gbk");
		NodeFilter ulFilter = new HasAttributeFilter("class", "param clearfix");
		NodeFilter liFilter = new AndFilter(new HasAttributeFilter("title"), new HasParentFilter(ulFilter));
		NodeList nodelist = parser.parse(liFilter);
		NodeIterator it = nodelist.elements();
		while(it.hasMoreNodes()){
			Node node = (Node)it.nextNode();
			returnString += node.toPlainTextString();
		}
		}
		}catch(Exception e){
			e.printStackTrace();
		}
		return returnString;
		
	}

上面代码中的AndFilter即表示参数一和二都要符合的Node.当然你还可以得到网页中h1标签中的内容，也就是这个物品的主要名称。

当然Parser一共有3总重载，具体的大家可以阅读源码，特别要提一下的是如果你想用HtmlParser解析字串符的话就直接将字串符作为参数构造一个Parser就OK了。

	public static String Geth1(String url){
		ConnectionManager manager = new ConnectionManager();
		String h1 = "";
		try{
			Parser parser = new Parser(manager.openConnection(url));
			NodeFilter h1Node = new TagNameFilter("h1");
			NodeList nodelist = parser.parse(h1Node);
			h1 = nodelist.elementAt(0).toPlainTextString();
		}catch(Exception e){
			e.printStackTrace();
		}
		return h1;
	
	}

脑中有飞鸟

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通过HtmlParser+Heritrix抓取PCONLINE网页（HtmlParser篇）

最近和同学参加中国软件杯比赛选题是聚焦搜索引擎，项目中我用到了HtmlParser和Heritrix，可惜项目进度缓慢，在这里就把自己这2个星期的所得写下来吧。说真的在百度上面搜索的话10篇里面有9篇都是复制粘贴的，感觉资料少让自己走了很多的弯路。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
复制链接

扫一扫

专栏目录