HTTP协议
HTTP协议(超文本传输协议,HyperText Transfer Protocol),是一种无状态的协议,它是基于TCP协议的应用层传输协议,简单的来说,HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。
那么,我们就可以模拟服务器使用TCP连接处理客户端HTTP请求,(TCP编程可以看博主的另一篇文章:http://t.csdn.cn/DeUtP)代码如下:
package com.fulian.demo01;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.UUID;
public class HttpServer {
public static void main(String[] args) {
// 模拟服务器使用TCP连接处理客户端HTTP请求
try (ServerSocket server = new ServerSocket(12138)) {
while(true) {
// 获取客户端浏览器的连接
Socket browserSocket = server.accept();
// 读取客户端的请求(request)
BufferedReader reader = new BufferedReader(new InputStreamReader(browserSocket.getInputStream()));
String line = null;
while((line = reader.readLine()) != null) {
System.out.println(line);
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
当我们使用浏览器访问模拟服务器时,控制台会获取当前连接的信息,也就是请求头HTTP Header和请求体Body:
Host:表示请求的域名,因为一台服务器上可能有多个网站,因此有必要依靠Host来识别请求是发给哪个网站的;
User-Agent:表示客户端自身标识信息,不同的浏览器有不同的标识,服务器依靠User-Agent判断客户端类型是IE还是Chrome,是Firefox还是一个爬虫;
Accept:表示客户端能处理的HTTP响应格式,*/*表示任意格式,text/*表示任意文本,image/png表示PNG格式的图片;
Accept-Language:表示客户端接收的语言,多种语言按优先级排序,服务器依靠该字段给用户返回特定语言的网页版本。
客户端有请求,服务器端自然也有回应,HTTP响应也是有Header和Body的,例如:
HTTP/1.1 200 OK
Content-Type: text/html
Content-Length: 133251
<!DOCTYPE html>
<html><body>
<h1>Hello</h1>
...
响应的第一行总是HTTP版本 响应代码 响应说明:例如,HTTP/1.1 200 OK表示版本是HTTP/1.1,响应代码是200,响应说明是OK。客户端只依赖响应代码判断HTTP响应是否成功。HTTP有固定的响应代码:
1xx:表示一个提示性响应,例如101表示将切换协议,常见于WebSocket连接;
2xx:表示一个成功的响应,例如200表示成功,206表示只发送了部分内容;
3xx:表示一个重定向的响应,例如301表示永久重定向,303表示客户端应该按指定路径重新发送请求;
4xx:表示一个因为客户端问题导致的错误响应,例如400表示因为Content-Type等各种原因导致的无效请求,404表示指定的路径不存在;
5xx:表示一个因为服务器问题导致的错误响应,例如500表示服务器内部故障,503表示服务器暂时无法响应。
一个实例:爬取豆瓣首页电影图片
实现流程:
1.使用统一资源定位符URL,把豆瓣电影地址封装到URL对象中。
2.调用openConnection()方法,打开连接(获取连接)
3.设置请求方式为GET
4.设置请求Header属性User-Agent,这里可以在开发者工具中从访问头中找到,目的是为了使Java程序模拟成用户进行网站访问,防止网站拒绝连接。
5.开始读取,由于connection.getInputStream()是一个字节输入流,为了更加方便读取,封装成BufferedReader字符流,每次读取判断读取行的内容,找出例如<img src="https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2875702766.webp" alt="神探大战" rel="nofollow" class="" />这一行,并添加到StringBuilder中。
6.导入jsoup-1.14.3.jar包,使用Jsoup方式提取信息:src:每张图片的地址和alt:电影名。先通过Jsoup.parse()方法,把html标签信息解析成Document对象。
7.从Document中获取名称为img的所有标签元素():getElementsByTag("img"),返回值是Elements,表示所有html元素组成的集合,继承自ArrayList集合。
8.遍历Elements,每个Element可以直接使用attr()方法,获取标签中对应信息。
9.读取到的每张图片封装到URL对象中,并获取连接。
10.最后,使用输入、输出流读取图片信息并同步存储到本机磁盘中。
示例代码如下:
package com.fulian.demo02;
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;
import java.nio.charset.StandardCharsets;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class DataFetch05 {
public static void main(String[] args) {
try {
// 豆瓣电影首页(统一资源定位符)
URL imageUrl = new URL("https://movie.douban.com/");
// 打开连接
HttpURLConnection connection = (HttpURLConnection) imageUrl.openConnection();
// 设置请求方式GET
connection.setRequestMethod("GET");
// 设置请求Header属性
connection.setRequestProperty("User-Agent",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.62");
BufferedReader reader = new BufferedReader(
new InputStreamReader(connection.getInputStream(), StandardCharsets.UTF_8));
String line = null;
StringBuilder nameList = new StringBuilder();
while ((line = reader.readLine()) != null) {
line = line.trim();
if (line.startsWith("<img") && line.contains("https://img") && line.contains(".jpg")) {
nameList.append(line);
}
}
// 使用jsoup解析html
// JSOUP类的作用进行原始解析
// Document类:网页文档(包含解析到的所有标签)
// Elements类:若干元素Element形成的集合(继承自ArrayList)
// Element类:某一个html元素
// 提取图片的路径src、电影名称alt
String src = "", alt = "";
// 解析成Document对象
Document doc = Jsoup.parse(nameList.toString());
// 从Document中获取名称为img的所有标签元素()
// 从所有代表img的元素集合中获取第一个
Elements imgElement = doc.getElementsByTag("img");
for (int i = 0; i < imgElement.size(); i++) {
// 获取img标签元素的src属性和alt属性
src = imgElement.get(i).attr("src");
alt = imgElement.get(i).attr("alt");
// 读取图片
URL imgUrl = new URL(src);
// 打开连接
HttpURLConnection imageUrlConnection = (HttpURLConnection) imgUrl.openConnection();
try (
// 读取图片
BufferedInputStream bis = new BufferedInputStream(imageUrlConnection.getInputStream());
// 存储图片
BufferedOutputStream bos = new BufferedOutputStream(
new FileOutputStream("d:\\test\\douban\\" + alt + ".jpg"));) {
// 边读边写
byte[] buff = new byte[1024];
int len = -1;
while ((len = bis.read(buff)) != -1) {
bos.write(buff, 0, len);
}
} catch (Exception e) {
e.printStackTrace();
}
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (ProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
执行完后,豆瓣电影的海报就读取到了: