今天用了jsoup 解析页面商品信息,感觉比用xpath获取信息准确多了
下面就记录一下:
一、首先去 http://jsoup.org/download 下载jsoup的jar包。
二、下面记录下相关代码:
Document doc = Jsoup.connect(url).get(); //将htm转换成Document类型数据结构
doc.select("div:has(div) div#spec-n1:has(img) img").first().attr("src")); //查找div下含有div的标签
并且 div的id='spec-n1',此div第一个img标签,img里属性是src的值。
doc.select("div:has(div) div.crumb:has(a) a:eq(4)").text(); //查找class='crumb'的div下第4个a标签
下的值。
doc.select("div:has(div) div#name:has(h1)").text(); //查找id='name'的div下的h1标签的值。
doc.select("tbody:has(tr) td.tdTitle:contains(品牌) + td").text(); //查找class='tdTitle'的td标签里
含有‘品牌’td的下一个td标签中内容。
doc.select("script[type=text/javascript]:not([src~=[a-zA-Z0-9./\\s]+)"); //查找含有此<script
type="text/javascript">……</script>内容,不含有script标签中有src属性的script,如:
<script src="url" type="text/javascript"></script>。