认识HTTP请求
什么是HTTP请求
- 我们可以简单地把HTTP请求理解为从客户端到服务器端的请求消息。
- 也就是说,无论是真正的一个人还是一个爬虫,当希望从服务器请求服务或信息时,就需要首先向服务器端发出一个请求,然后服务器返回响应,最后连接关闭,这就是Web服务的流程。
Http请求信息
- 请求方法
- 请求头部
- 请求正文
请求方法
- get
请求指定的页面信息,并返回实体主体。 - post
向指定资源提交数据进行处理请求,数据被包含在请求体里。 - 其他的请求方法
HEAD, PUT, DELETE, CONNECT, OPTIONS, TRACE等。
请求头部
请求头部包含许多有关客户端环境和请求正文的有用信息。例如请求头可以声明浏览器所用的语言,请求正文的长度等。(发送请求的客户端的身份信息)
一般网站服务器最常见的反爬虫措施就是通过读取请求头部的用户代理(user agent)信息来判断这个请求是来自正常的浏览器还是爬虫。