02-使用jsoup爬取网页内容

官网地址:jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety

一、jsoup获取网页数据流程?

1. 导入jsoup的jar包https://mvnrepository.com/artifact/org.jsoup/jsoup/1.15.1

2.获取Document对象

3.获取Element对象

4.获取数据

二、jsoup如何解决爬取资源乱码问题?

Jsoup.connect获取Document替换为Jsoup.parse(new URL(getUrl).openStream(), "UTF-8", getUrl);

三、如何获取html中a标签,图片src属性的绝对路径?

img.attr("abs:src") 获取图片的绝对路径。

a.attr("abs:href") 获取超链接的绝对路径。

doc.select(".main .zoomCon img").attr("width", "100%"); 修改img的width属性为100%。

可以通过attr属性来设置html中的属性。

四、爬取网页内容超时如何解决?

Jsoup.connect(linkHref).timeout(5000).get();

设置timeout的时间。

五、如何使用jsoup修改爬取的html?

doc.select(".main .zoomCon img").attr("width", "100%");

六、快速尝试爬取html入口

Try jsoup online: Java HTML parser and CSS/Xpath debugger

在这里可以直接输入想要爬取的网站地址,然后输入选择器就可以直接展示出最终的结果了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会编程的阿强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值