jsoup 解析页面商品信息

今天用了jsoup 解析页面商品信息,感觉比用xpath获取信息准确多了

 

下面就记录一下:

一、首先去 http://jsoup.org/download 下载jsoup的jar包。

 

二、下面记录下相关代码:

 

 

      Document doc = Jsoup.connect(url).get();    //将htm转换成Document类型数据结构

 
      doc.select("div:has(div) div#spec-n1:has(img) img").first().attr("src"));    //查找div下含有div的标签

      

      并且 div的id='spec-n1',此div第一个img标签,img里属性是src的值。

 

      doc.select("div:has(div) div.crumb:has(a) a:eq(4)").text();    //查找class='crumb'的div下第4个a标签

      下的值。

 

      doc.select("div:has(div) div#name:has(h1)").text();     //查找id='name'的div下的h1标签的值。

 

      doc.select("tbody:has(tr) td.tdTitle:contains(品牌) + td").text();     //查找class='tdTitle'的td标签里

 

      含有‘品牌’td的下一个td标签中内容。

 

      doc.select("script[type=text/javascript]:not([src~=[a-zA-Z0-9./\\s]+)");     //查找含有此<script

 

      type="text/javascript">……</script>内容,不含有script标签中有src属性的script,如:

 

      <script src="url" type="text/javascript"></script>。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值