Java捕获一个网站页面的全部图片

package com.test.picture;


import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class CatchImage {


// 地址
private static final String URL = "http://news.163.com/";
// 编码
private static final String ECODING = "UTF-8";
// 获取img标签正则
private static final String IMGURL_REG = "<img src=(.*?)[^>]*?>";
// 获取src路径的正则
private static final String IMGSRC_REG = "http:.+(\\.jpeg|\\.jpg|\\.png)\"";


public static void main(String[] args) throws Exception {
CatchImage cm = new CatchImage();


// 获得html文本内容
String HTML = cm.getHTML(URL);


// 获取图片标签
List<String> imgUrl = cm.getImageUrl(HTML);


// 获取图片src地址
List<String> imgSrc = cm.getImageSrc(imgUrl);


// 下载图片 cm.Download(imgSrc);
cm.Download(imgSrc);
}


/**


* 获取HTML内容

* @param url
* @return
* @throws Exception
**/
private String getHTML(String url) throws Exception {
URL uri = new URL(url);
URLConnection connection = uri.openConnection();
InputStream in = connection.getInputStream();
byte[] buf = new byte[1024];
int length = 0;
StringBuffer sb = new StringBuffer();
while ((length = in.read(buf, 0, buf.length)) > 0) {
sb.append(new String(buf, ECODING));
}
in.close();
return sb.toString();
}


/**
* 获取ImageUrl地址

* @param HTML

* @return
*/
private List<String> getImageUrl(String HTML) {
Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);
List<String> listImgUrl = new ArrayList<String>();
while (matcher.find()) {
listImgUrl.add(matcher.group());
}
// for(String str: listImgUrl){
// System.out.println(str);
// }
return listImgUrl;
}


/**
* 获取ImageSrc地址

* @param listImageUrl

* @return
**/
private List<String> getImageSrc(List<String> listImageUrl) {
List<String> listImgSrc = new ArrayList<String>();
for (String image : listImageUrl) {
Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);
while (matcher.find()) {
listImgSrc.add(matcher.group().substring(0,
matcher.group().length() - 1));


}
}
// for (String image : listImgSrc) {
// System.out.println(image);
// }
return listImgSrc;
}


/**
* 下载图片

* @param listImgSrc
**/
private void Download(List<String> listImgSrc) {
int count = 0;
ArrayList al = new ArrayList();
for (String urll : listImgSrc) {
System.out.println(urll);
Pattern p = Pattern.compile("\\.jpg|png|jpeg[^_]");
Matcher m = p.matcher(urll);
while (m.find()) {


al.add(m.group());
}
}
for (Object s : al) {
System.out.println(s);
}


try {
for (String url : listImgSrc) {
System.out.println(url);
URL uri = new URL(url);
InputStream in = uri.openStream();


FileOutputStream fo = new FileOutputStream("image/" + count
+ al.get(count));


byte[] buf = new byte[1024];
int length = 0;
System.out.println("开始下载:" + url);
while ((length = in.read(buf, 0, buf.length)) != -1) {
fo.write(buf, 0, length);
}
in.close();
fo.close();
System.out.println("下载完成");
count++;
}
} catch (Exception e) {
System.out.println("下载失败");
}
System.out.println(count);
}
}
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值