python爬虫学习4

亦瑕

已于 2022-02-27 17:19:13 修改

阅读量451

点赞数 3

分类专栏： Python爬虫基础学习笔记文章标签： python 爬虫学习

于 2022-02-27 16:31:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/szshiquan/article/details/123166112

版权

Python爬虫基础学习笔记专栏收录该内容

24 篇文章 8 订阅

订阅专栏

本文介绍了HTTP协议的无状态特性以及为保持会话状态引入的Session和Cookie机制，详细讲解了它们的工作原理。同时，探讨了爬虫中代理的基本原理和作用，包括如何利用代理避免IP被封锁，并对代理的分类进行了说明。

摘要由CSDN通过智能技术生成

python爬虫学习4

这里写目录标题

- - python爬虫学习4

Session 和 cookie
- 很多网页都是需要登录之后才能查看相应内容的。按照一般逻辑，输入用户名和密码登录网站肯定是拿到了类似于凭证的东西，有了这个凭证，才能保持登录状态，访问那些登陆之后才能访问的页面。
  
  这种凭证就是Session与cookie共同作用的结果
- 无状态HTTP
  - HTTP的无状态是指HTTP协议对事务处理是没有记录能力的。
  - 客户端向服务器发送请求后，服务器解析此请求，然后返回对应的响应，服务器负责完成这个过程，在这个过程中，服务器不会记录前后状态的变化。
  - 针对这种特性用于保持HTTP连接状态的技术就出现了。
  - Cookie（位于客户端）服务器通过用户访问时的cookie信息判断登录状态、返回对应相应。
- session（会话）
  - session 代表服务器与浏览器的一次会话过程
  - session用于保存用户的Session 信息
  - session位于服务器端，session对象用来储存特定用户会话所需要的信息
  - session由服务器端生成，保存在服务的内存、缓存、硬盘或数据库中。
  - session维持
```
# 客户端第一次请求服务器 → 服务器返回一个Set-Cookie字段用于标识用户 → 浏览器保存Cookie → 下一次请求时，在请求中携带保存的Cookie（内含sessionID） → 服务器检查cookie找到对应session → 通过session判断用户状态
```
- Cookie
  - cookie是由服务器生成后发送给客户端
  - cookie位于客户端
  - cookie分为会话cookie与持久cookie
    - 会话cookie存储在浏览器内存，关闭浏览器就失效
    - 持久cookie存储在客户端的硬盘，下一次打开浏览器还可以继续使用

在这里插入图片描述

在浏览器设置 → 网站设置 → cookie 和网站数据 → 查看所有cookie和网站数据中可以查看与管理保存在浏览器中的所有cookie

在这里插入图片描述

代理的基本原理
```
# 	在使用爬虫进行抓取数据时，往往会遇到 403Forbidden 的响应，显示您的IP访问频率过高。这是由于网站采取了反爬机制
	为了应对这种机制，有效的方法之一就是使用代理。
```
- 基本原理
  - 代理即代理服务器（Proxy Sever），功能是代替网络用户取得网络信息。在进行信息获取时，使用代理，服务器识别出的真实IP就不再是客户端的IP了。
- 代理的作用
  - 突破自身IP的访问限制
  - 访问一些单位或者团体的内部资源
  - 提高访问速度
  - 隐藏真实IP
- 爬虫代理
  - 对于爬虫来讲，在爬取过程中很有可能由于使用同一个IP访问过于频繁被网站监测到，此时网站就会要求输入验证码或者直接封锁IP，这样会给爬取工作带来阻碍。
  - 使用代理就会让服务器误以为是在请求自己。
- 代理的分类
  - 根据协议区分
    - FTP代理
    - HTTP代理
    - SSL/TLS代理
    - RTSP代理
    - Telnet代理
    - SCOKS代理
    - 等
  - 根据匿名程度
    - 高度匿名代理
    - 普通匿名代理
    - 透明代理
    - 间谍代理

未完待续。。。

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

亦瑕 CSDN认证博客专家 CSDN认证企业博客

码龄4年

75: 原创

29万+: 周排名

224万+: 总排名

6万+: 访问

: 等级

853: 积分

615: 粉丝

59: 获赞

47: 评论

236: 收藏

私信

关注

热门文章

分类专栏

Python爬虫基础学习笔记 24篇
python基础 30篇

最新评论

python爬虫学习45
亚索不会吹风: 苍天有眼啊，让我在优生之年得以观得如此精彩绝伦爬虫的文章！欢迎回访我的博客
python基础训练 day4
亦瑕: 好家伙你不说我都没发现，我的锅我的锅
python爬虫学习45
踟蹰横渡口,彳亍上滩舟。: python爬虫学习45,内容很丰富，太牛了!!!!!!
python基础训练 day4
我的百慕大洋葱: 大哥，99乘法表怎么变成加法表了
python爬虫学习32
毕业_设计: 很详细的教程，受益匪浅，期待hiufan

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。