使用jsoup选择器来查找元素

最新推荐文章于 2021-05-10 10:41:07 发布

小伟123456789

最新推荐文章于 2021-05-10 10:41:07 发布

阅读量2.2w

点赞数 1

分类专栏：爬虫文章标签： java json 爬虫

本文链接：https://blog.csdn.net/u012983749/article/details/52179795

版权

本文介绍了如何利用Jsoup库的CSS选择器有效地在HTML文档中查找和提取所需元素。通过实例展示了基本选择器、组合选择器以及类选择器的用法，帮助开发者更高效地进行网页抓取和解析。

摘要由CSDN通过智能技术生成

问题背景
使用java爬取拉勾网上职位信息。
首先，解析拉勾网职位信息网页，找出需要提取的信息并存入数据库。
之前尝试的方法：使用过解析json文件，但每个json文件只有15条信息，而且同一电脑多次访问网站会遇到限制（反爬虫）。
解析网页时使用正则表达式：优点：代码简介；缺点：正则表达式较为复杂，新手理解较为困难。
目前解决的办法：使用第三方库jsoup解析网页，获得想要的数据。

遇到的问题

需要使用类似于CSS或jQuery的语法来查找和操作元素。

方法

可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现：

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
 Elements links = doc.select("a[href]"); //带有href属性的a元素
 Elements pngs = doc.select("img[src$=.png]"); //扩展名为.png的图片
 Element masthead = doc.select("div.masthead").first(); //class等于masthead的div标签
 Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素