抓起页面的图片地址

最新推荐文章于 2023-12-02 14:54:04 发布

geelong2010

最新推荐文章于 2023-12-02 14:54:04 发布

阅读量81

点赞数

分类专栏：爬虫文章标签： Java Apache

本文链接：https://blog.csdn.net/geelong2010/article/details/83875115

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

package cracler;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;

public class CrawOnePageImg {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String url = "http://www.baidu.com/";
		
		GetMethod method = new GetMethod(url);
		HttpClient client = new HttpClient();
			try {
				client.executeMethod(method);
				InputStream in = method.getResponseBodyAsStream();
				BufferedReader reader = new BufferedReader(new InputStreamReader(in, method.getResponseCharSet()));
				StringBuilder sb = new StringBuilder();
				String line;
				while( (line = reader.readLine()) != null){
					sb.append(line);
				}

				String body = sb.toString();
				Pattern p = Pattern.compile("<img.*?src=\"(.*?)\"");  //() 捕获组
				Matcher m = p.matcher(body);
				while (m.find()){
					System.out.println(m.group(1));
				}
			} catch (Exception e) {
				e.printStackTrace();
			}
			method.releaseConnection();
	}

}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

geelong2010

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
抓起页面的图片地址

package cracler;import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.ap...
复制链接

扫一扫