官网地址:jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety
一、jsoup获取网页数据流程?
1. 导入jsoup的jar包https://mvnrepository.com/artifact/org.jsoup/jsoup/1.15.1
2.获取Document对象
3.获取Element对象
4.获取数据
二、jsoup如何解决爬取资源乱码问题?
Jsoup.connect获取Document替换为Jsoup.parse(new URL(getUrl).openStream(), "UTF-8", getUrl);
三、如何获取html中a标签,图片src属性的绝对路径?
img.attr("abs:src") 获取图片的绝对路径。
a.attr("abs:href") 获取超链接的绝对路径。
doc.select(".main .zoomCon img").attr("width", "100%"); 修改img的width属性为100%。
可以通过attr属性来设置html中的属性。
四、爬取网页内容超时如何解决?
Jsoup.connect(linkHref).timeout(5000).get();
设置timeout的时间。
五、如何使用jsoup修改爬取的html?
doc.select(".main .zoomCon img").attr("width", "100%");
六、快速尝试爬取html入口
Try jsoup online: Java HTML parser and CSS/Xpath debugger
在这里可以直接输入想要爬取的网站地址,然后输入选择器就可以直接展示出最终的结果了。