学习目标:
认识爬虫
学习内容:
- 掌握爬虫的概念、作用、分类
- 掌握HTTP协议的概念和特点
- 理解三次握手与四次挥手
- 认识URL
- 理解会话技术
学习总结:
一、爬虫的概念、作用、分类
- 爬虫是伪装成客户端与服务端进行数据交互的自动化程序。
- 爬虫的作用:数据采集、搜索引擎、模拟操作
- 爬虫的分类:通用爬虫、聚焦爬虫
二、 HTTP协议的概念和特点
- HTTP协议:计算机之间的一种规则,保障之间信息的有效交流。
- HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW: World Wide Web )服务器传输超文本到本地浏览器的传送协议。是以明文的方式在网络当中传递数据。
- HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层。
-
http: 端口:80 特点:简单快速、灵活
-
https: 端口:443 特点:内容加密建立一个信息安全通道,来保证数据传输的安全,身份认证确认网站的真实性,数据完整性防止内容被第三方冒充或者篡改
三、 三次握手与四次挥手
- 第一次握手:建立连接时,客户端发送syn包(syn=x)到服务器,并进入SYN_SENT状态,等待服务器确认;SYN:同步序列编号(Synchronize Sequence Numbers)。
- 第二次握手:服务器收到syn包,必须确认客户的SYN(ack=x+1),同时自己也发送一个SYN包(syn=y),即SYN+ACK包,此时服务器进入SYN_RECV状态。
- 第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=y+1),此包发送完毕,客户端和服务器进入ESTABLISHED(TCP连接成功)状态,完成三次握手。
- 第一次挥手: 客户端进程发出连接释放报文,并且停止发送数据。
- 第二次挥手: 服务器收到连接释放报文,发出确认报文,此时,服务端就进入了CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向就释放了,这时候处于半关闭状态,即客户端已经没有数据要发送了,但是服务器若发送数据,客户端依然要接受。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。
- 第三次挥手: 服务器将最后的数据发送完毕后,就向客户端发送连接释放报文,由于在半关闭状态,服务器很可能又发送了一些数据,此时,服务器就进入了LAST-ACK(最后确认)状态,等待客户端的确认。
- 第四次挥手: 客户端收到服务器的连接释放报文后,必须发出确认,此时,客户端就进入了TIME-WAIT(时间等待)状态。注意此时TCP连接还没有释放,必须经过2∗∗MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。
四、 认识URL
URL(Uniform Resource Locator),中文叫统一资源定位符。是用来标识某一处资源的地址。也 即是我们常说的网址。发送http请求时,通过URL对网络资源进行定位。
http请求常用方法:
- GET
1.主要是负责从服务器获取数据
2.URL中添加请求参数,显示在地址栏
3.请求字符串限制 1024个字节
比`POST`更加高效和方便。
- POST
1.主要负责向服务器提交数据
2.没有大小限制
比'GET'传递数据量大,安全性高。
五、会话技术
http是无状态的,那服务端怎么区分同一个用户的连续请求呢,这就用到了会话技术:cookie和session。
Cookie 可以理解为一个凭证
1.实际是由服务器发给客户端的特殊信息,
2.这些信息以文本文件的方式存放在客户端,
3.客户端每次向服务器发送请求的时候都会带上这些特殊的信息。
服务器在接收到Cookie以后,会验证Cookie的信息,以此来辨别用户的身份。
Session的目的则是,在一个客户从打开浏览器到关闭浏览器这个期间内,发起的所有请求都可以被识别为同一个用户。而实现的方式则是,在一个客户打开浏览器开始访问网站的时候,会生成一个cookie,SessionID,这个ID每次的访问都会带上,而服务器会识别这个SessionID并且将与这个SessionID有关的数据保存在服务器上。由此来实现客户端的状态识别。因此session是基于cookie的,Session与Cookie相反,Session是存储在服务器上的数据,只由客户端传上来的SessionId来进行判定,所以相对于Cookie,Session的安全性更高。
一般SessionID会在浏览器被关闭时丢弃,或者服务器会验证Session的活跃程度,例如30分钟某一个SessionID都没有活跃,那么也会被识别为失效。