问题背景
使用java爬取拉勾网上职位信息。 首先,解析拉勾网职位信息网页,找出需要提取的信息并存入数据库。 之前尝试的方法:使用过解析json文件,但每个json文件只有15条信息,而且同一电脑多次访问网站会遇到限制(反爬虫)。 解析网页时使用正则表达式:优点:代码简介;缺点:正则表达式较为复杂,新手理解较为困难。 目前解决的办法:使用第三方库jsoup解析网页,获得想要的数据。 遇到的问题 需要使用类似于CSS或jQuery的语法来查找和操作元素。 方法 可以使用 File input = new File("/tmp/input.html");
说明jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。. 这个 Select方法将返回一个 Selector选择器概述< |
使用jsoup选择器来查找元素
最新推荐文章于 2021-05-10 10:41:07 发布
本文介绍了如何利用Jsoup库的CSS选择器有效地在HTML文档中查找和提取所需元素。通过实例展示了基本选择器、组合选择器以及类选择器的用法,帮助开发者更高效地进行网页抓取和解析。
摘要由CSDN通过智能技术生成