jsoup 解析页面商品信息

最新推荐文章于 2024-10-02 05:39:15 发布

iteye_9721

最新推荐文章于 2024-10-02 05:39:15 发布

阅读量136

点赞数

分类专栏：爬虫文章标签： javascript 数据结构与算法 ViewUI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_9721/article/details/82167691

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天用了jsoup 解析页面商品信息，感觉比用xpath获取信息准确多了

下面就记录一下：

一、首先去 http://jsoup.org/download 下载jsoup的jar包。

二、下面记录下相关代码：

Document doc = Jsoup.connect(url).get(); //将htm转换成Document类型数据结构

doc.select("div:has(div) div#spec-n1:has(img) img").first().attr("src")); //查找div下含有div的标签

并且 div的id='spec-n1'，此div第一个img标签，img里属性是src的值。

doc.select("div:has(div) div.crumb:has(a) a:eq(4)").text(); //查找class='crumb'的div下第4个a标签

下的值。

doc.select("div:has(div) div#name:has(h1)").text(); //查找id='name'的div下的h1标签的值。

doc.select("tbody:has(tr) td.tdTitle:contains(品牌) + td").text(); //查找class='tdTitle'的td标签里

含有‘品牌’td的下一个td标签中内容。

doc.select("script[type=text/javascript]:not([src~=[a-zA-Z0-9./\\s]+)"); //查找含有此<script

type="text/javascript">……</script>内容，不含有script标签中有src属性的script，如：

<script src="url" type="text/javascript"></script>。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。