爬虫原理
爬虫是机器模仿用户操作,并批量获取数据。通常是抓取网页数据。
基础知识
http
HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接。由于这一特性,http很难保存用户信息,比如,用户前面访问的页面,以及用户登录的信息,为了更方便客户端与服务器数据的交互,引入了cookie或者session,去维系客户端与服务器之间的状态同步,cookie存在客户端的硬盘中,session则以sessionID存客户端的硬盘中,session中的数据存在服务器中,cookie的存储容量为4kb,session不限。
HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web服务器发送请求,Web服务器处理请求并返回适当的应答。
http请求方式
http请求属于应用层,在http请求之前,要进行TCP连接,即三次握手。客户端和服务器要确保双方都有接受和发送数据的能力,在三次握手的过程中,客服端和服务器相互之前发送的报文都是不带数据的,带数据的报文只能是在建立连接之后的。
HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。
以下是这八种方法的简介: