PYTHON爬虫学习记录

本文介绍了爬虫的基础概念、分类,重点讲解了HTTP协议的工作原理,包括三次握手和四次挥手过程,以及URL的作用。同时讨论了GET和POST方法的区别,以及会话技术,特别是Cookie和Session在保持用户状态中的关键作用。
摘要由CSDN通过智能技术生成

学习目标:

认识爬虫


学习内容:

  1. 掌握爬虫的概念、作用、分类
  2. 掌握HTTP协议的概念和特点
  3. 理解三次握手与四次挥手
  4. 认识URL
  5. 理解会话技术

学习总结:

一、爬虫的概念、作用、分类

  1. 爬虫是伪装成客户端与服务端进行数据交互的自动化程序。
  2. 爬虫的作用:数据采集、搜索引擎、模拟操作
  3. 爬虫的分类:通用爬虫、聚焦爬虫

二、 HTTP协议的概念和特点

  1. HTTP协议:计算机之间的一种规则,保障之间信息的有效交流。
  2. HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW: World Wide Web )服务器传输超文本到本地浏览器的传送协议。是以明文的方式在网络当中传递数据。
  3. HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层。
  4. http:  端口:80 特点:简单快速、灵活

  5. https: 端口:443 特点:内容加密建立一个信息安全通道,来保证数据传输的安全,身份认证确认网站的真实性,数据完整性防止内容被第三方冒充或者篡改

三、 三次握手与四次挥手

  1. 第一次握手:建立连接时,客户端发送syn包(syn=x)到服务器,并进入SYN_SENT状态,等待服务器确认;SYN:同步序列编号(Synchronize Sequence Numbers)。
  2. 第二次握手:服务器收到syn包,必须确认客户的SYN(ack=x+1),同时自己也发送一个SYN包(syn=y),即SYN+ACK包,此时服务器进入SYN_RECV状态。
  3. 第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=y+1),此包发送完毕,客户端和服务器进入ESTABLISHED(TCP连接成功)状态,完成三次握手。
  4. 第一次挥手: 客户端进程发出连接释放报文,并且停止发送数据。
  5. 第二次挥手: 服务器收到连接释放报文,发出确认报文,此时,服务端就进入了CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向就释放了,这时候处于半关闭状态,即客户端已经没有数据要发送了,但是服务器若发送数据,客户端依然要接受。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。
  6. 第三次挥手: 服务器将最后的数据发送完毕后,就向客户端发送连接释放报文,由于在半关闭状态,服务器很可能又发送了一些数据,此时,服务器就进入了LAST-ACK(最后确认)状态,等待客户端的确认。
  7. 第四次挥手: 客户端收到服务器的连接释放报文后,必须发出确认,此时,客户端就进入了TIME-WAIT(时间等待)状态。注意此时TCP连接还没有释放,必须经过2∗∗MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。

四、 认识URL

URL(Uniform Resource Locator),中文叫统一资源定位符。是用来标识某一处资源的地址。也    即是我们常说的网址。发送http请求时,通过URL对网络资源进行定位。

http请求常用方法:

- GET
  1.主要是负责从服务器获取数据
  2.URL中添加请求参数,显示在地址栏
  3.请求字符串限制 1024个字节
  比`POST`更加高效和方便。
- POST
  1.主要负责向服务器提交数据
  2.没有大小限制
  比'GET'传递数据量大,安全性高。

五、会话技术

http是无状态的,那服务端怎么区分同一个用户的连续请求呢,这就用到了会话技术:cookie和session。

Cookie   可以理解为一个凭证
  1.实际是由服务器发给客户端的特殊信息,
  2.这些信息以文本文件的方式存放在客户端,
  3.客户端每次向服务器发送请求的时候都会带上这些特殊的信息。 
  服务器在接收到Cookie以后,会验证Cookie的信息,以此来辨别用户的身份。

Session的目的则是,在一个客户从打开浏览器到关闭浏览器这个期间内,发起的所有请求都可以被识别为同一个用户。而实现的方式则是,在一个客户打开浏览器开始访问网站的时候,会生成一个cookie,SessionID,这个ID每次的访问都会带上,而服务器会识别这个SessionID并且将与这个SessionID有关的数据保存在服务器上。由此来实现客户端的状态识别。因此session是基于cookie的,Session与Cookie相反,Session是存储在服务器上的数据,只由客户端传上来的SessionId来进行判定,所以相对于Cookie,Session的安全性更高。

一般SessionID会在浏览器被关闭时丢弃,或者服务器会验证Session的活跃程度,例如30分钟某一个SessionID都没有活跃,那么也会被识别为失效。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习的小史努比

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值