在eclipse中构建 Maven project
点击后直接在跳出的新窗口中安确定
再选中项目,选中pom.xml 在工作框下边也选中pom.xml
进入https://mvnrepository.com/ 搜索jsoup,下载架包
复制文本:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
复制到刚刚新建项目里pom.xml页面(新写一个 <dependencies>标签,建文本放在 <dependencies>标签里)
然后就是新建包和class,将class代码书写如下:
package com.mashensoft.jsoup;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class GetPicDemo {
/**
* 到nipic网站下载图片
* 示例图片:图片的地址为:myUrl;图片的名字为:fileName; myUrl、fileName——都是参数;
*
*/
public static void picDownload(String myUrl, String fileName) {
try {
URL url = new URL(myUrl);
InputStream is = url.openConnection().getInputStream();
byte myArray[] = new byte[1024 * 100];
int len = 0;
OutputStream os = new FileOutputStream(fileName);
while ((len = is.read(myArray)) != -1) {
os.write(myArray, 0, len);
}
os.flush();
os.close();
is.close();
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* 功能:根据传入的url地址,建url地址中的尾部一部分,获取用来当文件的名称
*
* @param url
* @return
*/
public static String downloadPic(String url) {
int beginIndex = url.lastIndexOf("/"); //找到url地址中最后一个斜杠的位置
int endIndex=url.indexOf("."); //找到url地址中第一个小数点的位置
String fileName = url.substring(beginIndex+1, endIndex); //取两个位置之间的字符串作为文件名字
fileName+=".jpg";
return fileName;
}
/**
* 在一个图片网页上获取图片地址 "http://www.nipic.com/show/16519633.html"
*/
public static String getDonwloadPicUrlFromOnePage(String url) {
String downloadPicUrl = "";
try {
Document doc = Jsoup.connect(url).get(); //连接并获得url地址里内容(网页原代码)
if (doc != null && !Jsoup.connect(url).get().html().contains("唔,未找到任何页面!!!")) {
Element element = doc.getElementById("J_worksImg"); //获得带有“J_worksImg(根据自己想要的目标文件,找到不重复某一独特的值,属性,标签,字符端)”的元素
if (element != null && !element.attr("src").equals("")) {
downloadPicUrl = element.attr("src"); //将已经得到的元素里的带有“src”标签属性的,src的实际内容赋值给downloadPicUrl
}
}
} catch (IOException e) {
e.printStackTrace();
}
return downloadPicUrl;
}
/**
* 获取分页里的所有的子页面地址
*/
public static List getSonOfSisterPage(String soUrl) {
List<String> fourth = new ArrayList();
try {
Document doc = Jsoup.connect(soUrl).get();
Elements elements = doc.getElementsByClass("block works-detail hover-none");//获得带有“block works-detail hover-none(根据自己想要的目标文件,而特意找到的一个不重复某一独特的值,属性,标签或者字符端)”的元素
System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
// System.out.println(element.attr("href"));
fourth.add(element.attr("href"));
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return fourth;
}
/**
* 获取分页的地址
*
* @param sUrl
*/
public static List getSisterPage(String sUrl) {
List<String> threeurl = new ArrayList();
try {
Document doc = Jsoup.connect(sUrl).get();
Elements elements = doc.getElementsByClass("seo-page-num");
// System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
System.out.println(element.attr("href"));
threeurl.add(element.attr("href"));
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return threeurl;
}
public static void main(String[] args) {
List<String> sall = getSisterPage("http://www.nipic.com/topic/show_27036_1.html?ll");//获取分所有分页面的url地址,传给sall
long begintime=System.currentTimeMillis(); //获取当前程序开始的时间
for (int i = 0; i < sall.size(); i++) {
List<String> soall = getSonOfSisterPage(sall.get(i));
for (int soi = 0; soi < soall.size(); soi++) {
String url = soall.get(soi);
System.out.println("\n页面-------->" + url); //用于监视Console工作记录中, 是否有个别获取不到的url
System.out.println(getDonwloadPicUrlFromOnePage(url));
String downloadUrl = getDonwloadPicUrlFromOnePage(url);//将获得的分页面的url地址传给getDonwloadPicUrlFromOnePage();
String downloadFileName = downloadPic(url);//获取当前程序结束的时间
picDownload(downloadUrl, downloadFileName);//显示程序运行的时间
}
}
long lasttime=System.currentTimeMillis();
System.out.println(lasttime-begintime);
}
}