1.robots.txt 被称为君子协议 :规定了网站中哪些数据可以爬取哪些数据不能被爬取,例如:百度的robots.txt
2.http协议:服务器和客户端进行数据交互的一种形式
2.1. 常用的请求头信息:
-user-agent:请求载体的身份标识
-connection:请求完毕后断开连接还是保持连接
2.2. 常用的响应头信息:
-content-type:服务器响应客户端的数据类型
1.robots.txt 被称为君子协议 :规定了网站中哪些数据可以爬取哪些数据不能被爬取,例如:百度的robots.txt
2.http协议:服务器和客户端进行数据交互的一种形式
2.1. 常用的请求头信息:
-user-agent:请求载体的身份标识
-connection:请求完毕后断开连接还是保持连接
2.2. 常用的响应头信息:
-content-type:服务器响应客户端的数据类型