java htmlunit jsoup实现爬取网页img标签中的图片
htmlunit 是一款开源的java 页面分析工具,可以模拟浏览器执行js代码并获取执行之后的html网页代码。
jsoup 是一款Java 的HTML解析器,可以使用简单的语法获取html标签中属性的值。
如果获取到了js执行之后的img标签的src属性值,就可以根据这个图片的url将图片下载到本地。
需要的maven依赖:
<!--jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
<!--htmlunit-->
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.33</version>
</dependency>
程序中下载图片需要提供三个必须的参数,分别为:需要访问网页的url、需要爬取元素内img图片的css选择器、图片保存到本地的位置。另外,还有一个可选的参数为下载图片的名字。
htmlunit 还可以设置等待需要访问网页js加载的时间,只需要修改源代码中的一个参数即可。
StaticTool工具类中,根据url下载图片的代码来自于网络。
使用htmlunit和jsoup框架除爬取图片之外,还可以实现很多有意思的事情,比如从网页上获取想要的文字内容等,实现方式也和该程序大同小异。
编译环境:
windows、jdk11、idea2020
部分示例代码:
如果您想要查看该程序的完整代码,私信我即可。
Main主类:
public class Main {
// 默认保存路径:桌面/img文件夹
private static final String defaultSavePath = "C:\\Users\\ASUS\\Desktop\\img\\";
public static void main(String[] args) throws Exception {
// MainFunction function =
// new MainFunction("https://www.jd.com/", "#J_focus img", "C:\\Users\\ASUS\\Desktop\\img\\") {
// @Override
// int naming(int count) {
// return ++count;
// }
// };
// MainFunction function =
// new MainFunction("http://150.158.165.239/", "img", "C:\\Users\\ASUS\\Desktop\\img\\") {
// @Override
// int nam