JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

原创 2013年11月15日 13:11:18

利用java抓取网页上的所有图片:

用两个正则表达式:

1、匹配html中img标签的正则:<img.*src=(.*?)[^>]*?>

2、匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+)


实现:

package org.swinglife.main;

import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/***
 * java抓取网络图片
 * @author swinglife
 *
 */
public class CatchImage {

	// 地址
	private static final String URL = "http://www.csdn.net";
	// 编码
	private static final String ECODING = "UTF-8";
	// 获取img标签正则
	private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";
	// 获取src路径的正则
	private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";

	
	public static void main(String[] args) throws Exception {
		CatchImage cm = new CatchImage();
		//获得html文本内容
		String HTML = cm.getHTML(URL);
		//获取图片标签
		List<String> imgUrl = cm.getImageUrl(HTML);
		//获取图片src地址
		List<String> imgSrc = cm.getImageSrc(imgUrl);
		//下载图片
		cm.Download(imgSrc);
	}
	
	
	/***
	 * 获取HTML内容
	 * 
	 * @param url
	 * @return
	 * @throws Exception
	 */
	private String getHTML(String url) throws Exception {
		URL uri = new URL(url);
		URLConnection connection = uri.openConnection();
		InputStream in = connection.getInputStream();
		byte[] buf = new byte[1024];
		int length = 0;
		StringBuffer sb = new StringBuffer();
		while ((length = in.read(buf, 0, buf.length)) > 0) {
			sb.append(new String(buf, ECODING));
		}
		in.close();
		return sb.toString();
	}

	/***
	 * 获取ImageUrl地址
	 * 
	 * @param HTML
	 * @return
	 */
	private List<String> getImageUrl(String HTML) {
		Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);
		List<String> listImgUrl = new ArrayList<String>();
		while (matcher.find()) {
			listImgUrl.add(matcher.group());
		}
		return listImgUrl;
	}

	/***
	 * 获取ImageSrc地址
	 * 
	 * @param listImageUrl
	 * @return
	 */
	private List<String> getImageSrc(List<String> listImageUrl) {
		List<String> listImgSrc = new ArrayList<String>();
		for (String image : listImageUrl) {
			Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);
			while (matcher.find()) {
				listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));
			}
		}
		return listImgSrc;
	}

	/***
	 * 下载图片
	 * 
	 * @param listImgSrc
	 */
	private void Download(List<String> listImgSrc) {
		try {
			for (String url : listImgSrc) {
				String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
				URL uri = new URL(url);
				InputStream in = uri.openStream();
				FileOutputStream fo = new FileOutputStream(new File(imageName));
				byte[] buf = new byte[1024];
				int length = 0;
				System.out.println("开始下载:" + url);
				while ((length = in.read(buf, 0, buf.length)) != -1) {
					fo.write(buf, 0, length);
				}
				in.close();
				fo.close();
				System.out.println(imageName + "下载完成");
			}
		} catch (Exception e) {
			System.out.println("下载失败");
		}
	}

	
}



版权声明:本文为博主原创文章,未经博主允许不得转载。

Java 抓取网页上的图片

import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io....
  • xuaa
  • xuaa
  • 2014年03月05日 21:45
  • 7095

爬虫:实现网站的全部图片抓取

花了一天左右的时间,用Java写了一个图片爬取,理论上是可以将所有的图片爬下的,但是整个站点图片太多了,所以只测试的爬了9000张左右的图片。好啦先看效果图。 &amp;lt;img src=...
  • qq_24489717
  • qq_24489717
  • 2016年10月22日 16:49
  • 3829

JAVA抓取网页图片并下载到本地

JAVA抓取网络图片
  • whzhaochao
  • whzhaochao
  • 2015年10月07日 15:43
  • 3874

Java捕获一个网站页面的全部图片

package com.test.picture; import java.io.FileOutputStream; import java.io.InputStream; import...
  • liuyh577
  • liuyh577
  • 2017年04月06日 09:50
  • 231

JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

利用java抓取网页上的所有图片: 用两个正则表达式: 1、匹配html中img标签的正则:]*?> 2、匹配img标签中得src中http路径的正则:http:\"?(.*?)(\...
  • sp6645597
  • sp6645597
  • 2014年06月25日 14:42
  • 4677

java实现爬虫爬网站图片

第一步,实现 LinkQueue,对url进行过滤和存储的操作 import java.util.ArrayList; import java.util.Collections; import jav...
  • javaxiaojian
  • javaxiaojian
  • 2015年06月29日 11:34
  • 20806

php远程抓取网站图片并保存

  • china_skag
  • china_skag
  • 2014年01月18日 16:10
  • 9323

网页内容抓取 图片的抓取方法

DOWNLOADPIC下载图片方法:    package com.bwjf.webapp.util; import java.io.ByteArrayOutputStream...
  • u013604031
  • u013604031
  • 2015年11月06日 15:52
  • 687

【初学】java爬虫并抓取图片保存

【初学】java爬虫并抓取图片保存
  • smilecjw
  • smilecjw
  • 2016年09月03日 15:28
  • 3907

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地。...
  • canlets
  • canlets
  • 2014年05月13日 20:16
  • 11155
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
举报原因:
原因补充:

(最多只允许输入30个字)