java htmlunit jsoup实现爬取网页img标签中的图片

本文介绍了如何使用Java的HTMLUnit和Jsoup库来爬取和下载网页中img标签的图片。HTMLUnit能模拟浏览器执行JavaScript,而Jsoup则用于解析HTML获取img标签的src属性。通过指定网页URL、CSS选择器和本地保存路径,可以实现图片的下载。此外,还提到了HTMLUnit可调整等待JS加载的时间。示例代码展示了部分实现细节,适用于Windows环境,基于JDK11和IntelliJ IDEA。作者欢迎反馈和讨论。
摘要由CSDN通过智能技术生成
java htmlunit jsoup实现爬取网页img标签中的图片

htmlunit 是一款开源的java 页面分析工具,可以模拟浏览器执行js代码并获取执行之后的html网页代码。
jsoup 是一款Java 的HTML解析器,可以使用简单的语法获取html标签中属性的值。

如果获取到了js执行之后的img标签的src属性值,就可以根据这个图片的url将图片下载到本地。

需要的maven依赖:

<!--jsoup-->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

<!--htmlunit-->
<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.33</version>
</dependency>

程序中下载图片需要提供三个必须的参数,分别为:需要访问网页的url、需要爬取元素内img图片的css选择器、图片保存到本地的位置。另外,还有一个可选的参数为下载图片的名字。

htmlunit 还可以设置等待需要访问网页js加载的时间,只需要修改源代码中的一个参数即可。

StaticTool工具类中,根据url下载图片的代码来自于网络。

使用htmlunit和jsoup框架除爬取图片之外,还可以实现很多有意思的事情,比如从网页上获取想要的文字内容等,实现方式也和该程序大同小异。

编译环境:
windows、jdk11、idea2020

部分示例代码:
如果您想要查看该程序的完整代码,私信我即可。

Main主类:

public class Main {
   
    // 默认保存路径:桌面/img文件夹
    private static final String defaultSavePath = "C:\\Users\\ASUS\\Desktop\\img\\";

    public static void main(String[] args) throws Exception {
   
//        MainFunction function =
//                new MainFunction("https://www.jd.com/", "#J_focus img", "C:\\Users\\ASUS\\Desktop\\img\\") {
   
//            @Override
//            int naming(int count) {
   
//                return ++count;
//            }
//        };
//        MainFunction function =
//                new MainFunction("http://150.158.165.239/", "img", "C:\\Users\\ASUS\\Desktop\\img\\") {
   
//                    @Override
//                    int nam
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值