Java中使用HTTP编程实现网络爬虫

最新推荐文章于 2024-06-27 15:32:41 发布

仙草不加料

最新推荐文章于 2024-06-27 15:32:41 发布

阅读量719

点赞数 8

文章标签： java http 服务器爬虫网络

本文链接：https://blog.csdn.net/qq_45958440/article/details/125856681

版权

HTTP协议

HTTP协议(超文本传输协议，HyperText Transfer Protocol)，是一种无状态的协议，它是基于TCP协议的应用层传输协议，简单的来说，HTTP协议属于应用层，建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接，之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

那么，我们就可以模拟服务器使用TCP连接处理客户端HTTP请求，（TCP编程可以看博主的另一篇文章：http://t.csdn.cn/DeUtP）代码如下：

package com.fulian.demo01;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.UUID;

public class HttpServer {
	public static void main(String[] args) {
		// 模拟服务器使用TCP连接处理客户端HTTP请求
		try (ServerSocket server = new ServerSocket(12138)) {
			
			while(true) {
				// 获取客户端浏览器的连接
				Socket browserSocket = server.accept();
				
				// 读取客户端的请求（request）
				BufferedReader reader = new BufferedReader(new InputStreamReader(browserSocket.getInputStream()));
				
				String line = null;
				while((line = reader.readLine()) != null) {
					System.out.println(line);
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

当我们使用浏览器访问模拟服务器时，控制台会获取当前连接的信息，也就是请求头HTTP Header和请求体Body：

Host：表示请求的域名，因为一台服务器上可能有多个网站，因此有必要依靠Host来识别请求是发给哪个网站的；

User-Agent：表示客户端自身标识信息，不同的浏览器有不同的标识，服务器依靠User-Agent判断客户端类型是IE还是Chrome，是Firefox还是一个爬虫；

Accept：表示客户端能处理的HTTP响应格式，*/*表示任意格式，text/*表示任意文本，image/png表示PNG格式的图片；

Accept-Language：表示客户端接收的语言，多种语言按优先级排序，服务器依靠该字段给用户返回特定语言的网页版本。

客户端有请求，服务器端自然也有回应，HTTP响应也是有Header和Body的，例如：

HTTP/1.1 200 OK
Content-Type: text/html
Content-Length: 133251

<!DOCTYPE html>
<html><body>
<h1>Hello</h1>
...

响应的第一行总是HTTP版本响应代码响应说明：例如，HTTP/1.1 200 OK表示版本是HTTP/1.1，响应代码是200，响应说明是OK。客户端只依赖响应代码判断HTTP响应是否成功。HTTP有固定的响应代码：

1xx：表示一个提示性响应，例如101表示将切换协议，常见于WebSocket连接；

2xx：表示一个成功的响应，例如200表示成功，206表示只发送了部分内容；

3xx：表示一个重定向的响应，例如301表示永久重定向，303表示客户端应该按指定路径重新发送请求；

4xx：表示一个因为客户端问题导致的错误响应，例如400表示因为Content-Type等各种原因导致的无效请求，404表示指定的路径不存在；

5xx：表示一个因为服务器问题导致的错误响应，例如500表示服务器内部故障，503表示服务器暂时无法响应。

一个实例：爬取豆瓣首页电影图片

实现流程：

1.使用统一资源定位符URL，把豆瓣电影地址封装到URL对象中。

2.调用openConnection()方法，打开连接（获取连接）

3.设置请求方式为GET

4.设置请求Header属性User-Agent，这里可以在开发者工具中从访问头中找到，目的是为了使Java程序模拟成用户进行网站访问，防止网站拒绝连接。

5.开始读取，由于connection.getInputStream()是一个字节输入流，为了更加方便读取，封装成BufferedReader字符流，每次读取判断读取行的内容，找出例如<img src="https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2875702766.webp" alt="神探大战" rel="nofollow" class="" />这一行，并添加到StringBuilder中。

6.导入jsoup-1.14.3.jar包，使用Jsoup方式提取信息：src：每张图片的地址和alt：电影名。先通过Jsoup.parse()方法，把html标签信息解析成Document对象。

7.从Document中获取名称为img的所有标签元素（）：getElementsByTag("img")，返回值是Elements，表示所有html元素组成的集合，继承自ArrayList集合。

8.遍历Elements，每个Element可以直接使用attr()方法，获取标签中对应信息。

9.读取到的每张图片封装到URL对象中，并获取连接。

10.最后，使用输入、输出流读取图片信息并同步存储到本机磁盘中。

示例代码如下：

package com.fulian.demo02;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;
import java.nio.charset.StandardCharsets;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class DataFetch05 {
	public static void main(String[] args) {
		try {
			// 豆瓣电影首页（统一资源定位符）
			URL imageUrl = new URL("https://movie.douban.com/");

			// 打开连接
			HttpURLConnection connection = (HttpURLConnection) imageUrl.openConnection();

			// 设置请求方式GET
			connection.setRequestMethod("GET");

			// 设置请求Header属性
			connection.setRequestProperty("User-Agent",
					"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.62");

			BufferedReader reader = new BufferedReader(
					new InputStreamReader(connection.getInputStream(), StandardCharsets.UTF_8));

			String line = null;
			StringBuilder nameList = new StringBuilder();
			while ((line = reader.readLine()) != null) {
				line = line.trim();

				if (line.startsWith("<img") && line.contains("https://img") && line.contains(".jpg")) {
					nameList.append(line);
				}
			}
			// 使用jsoup解析html
			// JSOUP类的作用进行原始解析
			// Document类：网页文档（包含解析到的所有标签）
			// Elements类：若干元素Element形成的集合（继承自ArrayList）
			// Element类：某一个html元素

			// 提取图片的路径src、电影名称alt
			String src = "", alt = "";

			// 解析成Document对象
			Document doc = Jsoup.parse(nameList.toString());
			// 从Document中获取名称为img的所有标签元素（）
			// 从所有代表img的元素集合中获取第一个
			Elements imgElement = doc.getElementsByTag("img");

			for (int i = 0; i < imgElement.size(); i++) {
				// 获取img标签元素的src属性和alt属性
				src = imgElement.get(i).attr("src");
				alt = imgElement.get(i).attr("alt");

				// 读取图片
				URL imgUrl = new URL(src);
				// 打开连接
				HttpURLConnection imageUrlConnection = (HttpURLConnection) imgUrl.openConnection();
				try (
						// 读取图片
						BufferedInputStream bis = new BufferedInputStream(imageUrlConnection.getInputStream());
						// 存储图片
						BufferedOutputStream bos = new BufferedOutputStream(
								new FileOutputStream("d:\\test\\douban\\" + alt + ".jpg"));) {

					// 边读边写
					byte[] buff = new byte[1024];
					int len = -1;
					while ((len = bis.read(buff)) != -1) {
						bos.write(buff, 0, len);
					}
				} catch (Exception e) {
					e.printStackTrace();
				}
			}

		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (ProtocolException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

执行完后，豆瓣电影的海报就读取到了：

仙草不加料

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Java中使用HTTP编程实现网络爬虫

HTTP协议(超文本传输协议，HyperTextTransferProtocol)，是一种无状态的协议，它是基于TCP协议的应用层传输协议，简单的来说，HTTP协议属于应用层，建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接，之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。当我们使用浏览器访问模拟服务器时，控制台会获取当前连接的信息，也就是请求头HTTPHeader和请求体BodyHost响应的第一行总是HTTP版本响应代码响应说明。...
复制链接

扫一扫