Java中使用HTTP编程实现网络爬虫

HTTP协议

         HTTP协议(超文本传输协议,HyperText Transfer Protocol),是一种无状态的协议,它是基于TCP协议的应用层传输协议,简单的来说,HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

        那么,我们就可以模拟服务器使用TCP连接处理客户端HTTP请求,(TCP编程可以看博主的另一篇文章:http://t.csdn.cn/DeUtP)代码如下:

package com.fulian.demo01;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.UUID;

public class HttpServer {
	public static void main(String[] args) {
		// 模拟服务器使用TCP连接处理客户端HTTP请求
		try (ServerSocket server = new ServerSocket(12138)) {
			
			while(true) {
				// 获取客户端浏览器的连接
				Socket browserSocket = server.accept();
				
				// 读取客户端的请求(request)
				BufferedReader reader = new BufferedReader(new InputStreamReader(browserSocket.getInputStream()));
				
				String line = null;
				while((line = reader.readLine()) != null) {
					System.out.println(line);
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

     当我们使用浏览器访问模拟服务器时,控制台会获取当前连接的信息,也就是请求头HTTP Header和请求体Body:

Host:表示请求的域名,因为一台服务器上可能有多个网站,因此有必要依靠Host来识别请求是发给哪个网站的;

User-Agent:表示客户端自身标识信息,不同的浏览器有不同的标识,服务器依靠User-Agent判断客户端类型是IE还是Chrome,是Firefox还是一个爬虫;

 Accept:表示客户端能处理的HTTP响应格式,*/*表示任意格式,text/*表示任意文本,image/png表示PNG格式的图片;

 Accept-Language:表示客户端接收的语言,多种语言按优先级排序,服务器依靠该字段给用户返回特定语言的网页版本。

        客户端有请求,服务器端自然也有回应,HTTP响应也是有Header和Body的,例如:

HTTP/1.1 200 OK
Content-Type: text/html
Content-Length: 133251

<!DOCTYPE html>
<html><body>
<h1>Hello</h1>
...

响应的第一行总是HTTP版本 响应代码 响应说明:例如,HTTP/1.1 200 OK表示版本是HTTP/1.1,响应代码是200,响应说明是OK。客户端只依赖响应代码判断HTTP响应是否成功。HTTP有固定的响应代码:

 1xx:表示一个提示性响应,例如101表示将切换协议,常见于WebSocket连接;

 2xx:表示一个成功的响应,例如200表示成功,206表示只发送了部分内容; 

 3xx:表示一个重定向的响应,例如301表示永久重定向,303表示客户端应该按指定路径重新发送请求;

 4xx:表示一个因为客户端问题导致的错误响应,例如400表示因为Content-Type等各种原因导致的无效请求,404表示指定的路径不存在;

 5xx:表示一个因为服务器问题导致的错误响应,例如500表示服务器内部故障,503表示服务器暂时无法响应。

一个实例:爬取豆瓣首页电影图片

实现流程:

1.使用统一资源定位符URL,把豆瓣电影地址封装到URL对象中。

2.调用openConnection()方法,打开连接(获取连接)

3.设置请求方式为GET

4.设置请求Header属性User-Agent,这里可以在开发者工具中从访问头中找到,目的是为了使Java程序模拟成用户进行网站访问,防止网站拒绝连接。

5.开始读取,由于connection.getInputStream()是一个字节输入流,为了更加方便读取,封装成BufferedReader字符流,每次读取判断读取行的内容,找出例如<img src="https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2875702766.webp" alt="神探大战" rel="nofollow" class="" />这一行,并添加到StringBuilder中。

6.导入jsoup-1.14.3.jar包,使用Jsoup方式提取信息:src:每张图片的地址和alt:电影名。先通过Jsoup.parse()方法,把html标签信息解析成Document对象。

7.从Document中获取名称为img的所有标签元素():getElementsByTag("img"),返回值是Elements,表示所有html元素组成的集合,继承自ArrayList集合。

8.遍历Elements,每个Element可以直接使用attr()方法,获取标签中对应信息。

9.读取到的每张图片封装到URL对象中,并获取连接。

10.最后,使用输入、输出流读取图片信息并同步存储到本机磁盘中。

示例代码如下:

package com.fulian.demo02;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;
import java.nio.charset.StandardCharsets;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class DataFetch05 {
	public static void main(String[] args) {
		try {
			// 豆瓣电影首页(统一资源定位符)
			URL imageUrl = new URL("https://movie.douban.com/");

			// 打开连接
			HttpURLConnection connection = (HttpURLConnection) imageUrl.openConnection();

			// 设置请求方式GET
			connection.setRequestMethod("GET");

			// 设置请求Header属性
			connection.setRequestProperty("User-Agent",
					"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.62");

			BufferedReader reader = new BufferedReader(
					new InputStreamReader(connection.getInputStream(), StandardCharsets.UTF_8));

			String line = null;
			StringBuilder nameList = new StringBuilder();
			while ((line = reader.readLine()) != null) {
				line = line.trim();

				if (line.startsWith("<img") && line.contains("https://img") && line.contains(".jpg")) {
					nameList.append(line);
				}
			}
			// 使用jsoup解析html
			// JSOUP类的作用进行原始解析
			// Document类:网页文档(包含解析到的所有标签)
			// Elements类:若干元素Element形成的集合(继承自ArrayList)
			// Element类:某一个html元素

			// 提取图片的路径src、电影名称alt
			String src = "", alt = "";

			// 解析成Document对象
			Document doc = Jsoup.parse(nameList.toString());
			// 从Document中获取名称为img的所有标签元素()
			// 从所有代表img的元素集合中获取第一个
			Elements imgElement = doc.getElementsByTag("img");

			for (int i = 0; i < imgElement.size(); i++) {
				// 获取img标签元素的src属性和alt属性
				src = imgElement.get(i).attr("src");
				alt = imgElement.get(i).attr("alt");

				// 读取图片
				URL imgUrl = new URL(src);
				// 打开连接
				HttpURLConnection imageUrlConnection = (HttpURLConnection) imgUrl.openConnection();
				try (
						// 读取图片
						BufferedInputStream bis = new BufferedInputStream(imageUrlConnection.getInputStream());
						// 存储图片
						BufferedOutputStream bos = new BufferedOutputStream(
								new FileOutputStream("d:\\test\\douban\\" + alt + ".jpg"));) {

					// 边读边写
					byte[] buff = new byte[1024];
					int len = -1;
					while ((len = bis.read(buff)) != -1) {
						bos.write(buff, 0, len);
					}
				} catch (Exception e) {
					e.printStackTrace();
				}
			}

		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (ProtocolException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

执行完后,豆瓣电影的海报就读取到了:

 

  • 8
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仙草不加料

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值