用Java代码一键下载图片网站的全部图片

最新推荐文章于 2024-07-26 03:12:16 发布

陈建维

最新推荐文章于 2024-07-26 03:12:16 发布

阅读量2.2k

点赞数

分类专栏：课堂随笔

课堂随笔专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在eclipse中构建 Maven project

点击后直接在跳出的新窗口中安确定

再选中项目，选中pom.xml 在工作框下边也选中pom.xml

进入https://mvnrepository.com/ 搜索jsoup，下载架包

复制文本：

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>

复制到刚刚新建项目里pom.xml页面（新写一个 <dependencies>标签，建文本放在 <dependencies>标签里）

然后就是新建包和class，将class代码书写如下：

package com.mashensoft.jsoup;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class GetPicDemo {

/**
* 到nipic网站下载图片
* 示例图片：图片的地址为：myUrl;图片的名字为：fileName； myUrl、fileName——都是参数;
*
*/
public static void picDownload(String myUrl, String fileName) {
try {
URL url = new URL(myUrl);
InputStream is = url.openConnection().getInputStream();
byte myArray[] = new byte[1024 * 100];
int len = 0;
OutputStream os = new FileOutputStream(fileName);
while ((len = is.read(myArray)) != -1) {
os.write(myArray, 0, len);
}
os.flush();
os.close();
is.close();
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

/**
* 功能：根据传入的url地址，建url地址中的尾部一部分，获取用来当文件的名称
*
* @param url
* @return
*/
public static String downloadPic(String url) {

int beginIndex = url.lastIndexOf("/"); //找到url地址中最后一个斜杠的位置
int endIndex=url.indexOf("."); //找到url地址中第一个小数点的位置
String fileName = url.substring(beginIndex+1, endIndex); //取两个位置之间的字符串作为文件名字
fileName+=".jpg";

return fileName;
}

/**
* 在一个图片网页上获取图片地址 "http://www.nipic.com/show/16519633.html"
*/
public static String getDonwloadPicUrlFromOnePage(String url) {
String downloadPicUrl = "";
try {
Document doc = Jsoup.connect(url).get(); //连接并获得url地址里内容（网页原代码）
if (doc != null && !Jsoup.connect(url).get().html().contains("唔，未找到任何页面！！！")) {
Element element = doc.getElementById("J_worksImg"); //获得带有“J_worksImg（根据自己想要的目标文件，找到不重复某一独特的值，属性，标签，字符端）”的元素
if (element != null && !element.attr("src").equals("")) {
downloadPicUrl = element.attr("src"); //将已经得到的元素里的带有“src”标签属性的，src的实际内容赋值给downloadPicUrl
}
}
} catch (IOException e) {
e.printStackTrace();
}
return downloadPicUrl;

}

/**
* 获取分页里的所有的子页面地址
*/
public static List getSonOfSisterPage(String soUrl) {
List<String> fourth = new ArrayList();
try {
Document doc = Jsoup.connect(soUrl).get();
Elements elements = doc.getElementsByClass("block works-detail hover-none");//获得带有“block works-detail hover-none（根据自己想要的目标文件，而特意找到的一个不重复某一独特的值，属性，标签或者字符端）”的元素
System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
// System.out.println(element.attr("href"));
fourth.add(element.attr("href"));
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return fourth;
}

/**
* 获取分页的地址
*
* @param sUrl
*/
public static List getSisterPage(String sUrl) {
List<String> threeurl = new ArrayList();
try {
Document doc = Jsoup.connect(sUrl).get();
Elements elements = doc.getElementsByClass("seo-page-num");
// System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
System.out.println(element.attr("href"));
threeurl.add(element.attr("href"));
}

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return threeurl;
}

public static void main(String[] args) {
List<String> sall = getSisterPage("http://www.nipic.com/topic/show_27036_1.html?ll");//获取分所有分页面的url地址，传给sall
long begintime=System.currentTimeMillis(); //获取当前程序开始的时间
for (int i = 0; i < sall.size(); i++) {
List<String> soall = getSonOfSisterPage(sall.get(i));
for (int soi = 0; soi < soall.size(); soi++) {
String url = soall.get(soi);
System.out.println("\n页面-------->" + url); //用于监视Console工作记录中，是否有个别获取不到的url
System.out.println(getDonwloadPicUrlFromOnePage(url));
String downloadUrl = getDonwloadPicUrlFromOnePage(url);//将获得的分页面的url地址传给getDonwloadPicUrlFromOnePage();
String downloadFileName = downloadPic(url);//获取当前程序结束的时间
picDownload(downloadUrl, downloadFileName);//显示程序运行的时间

}
}
long lasttime=System.currentTimeMillis();
System.out.println(lasttime-begintime);
}

}