08Python爬虫---正则和Cookie小结

(1)有时我们在进行字符串处理的时候,希望按自定义的规则进行处理,我们将这些规则称为模式。可以用正则表达式来描述这些自定义规则,正则表达式也称为模式表达式。

(2)在 Python中,一般我们会使用re模块实现 Python正则表达式的功能。

(3)正则表达式中常见的原子有:普通字符作为原子、非打印字符作为原子、通用字符作为原子、原子表。

(4)模式修正符,可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能

(5)我们访问每一个互联网页面,都是通过HTP协议进行的,而HTTP协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态

(6)会话信息控制比较常用的方式有两种:通过 Cookie保存会话信息、通过 Session保存会话信息。

(7)如果是通过 Session保存会话信息,会将对应的会话信息保存在服务器端,但是服务器端会给客户端发 SessionID等信息,这些信息一般存在客户端的 Cookie中,当然,如果客户禁止了Cookie,也会通过其他方式存储。但是目前来说,大部分的情况还是会将这一部分信息存到Cookie中。然后,用户在访问该网站其他网页的时候,会从 Cookie中读取这一部分信息,然后从服务器中的 Session中根据这一部分 Cookie信息检索出该客户端的所有会话信息,然后进行会话控制。显然,使用 Session的方式来保存会话信息,大部分的时候,还是会用的 Cookie

(8)如果要使用 Python处理 Cookie,在 Python3中可以使用 cookiejar库进行处理,而在Python2则可以使用 cookielib库进行处理。

(9)如果要获得真实的登录地址,我们需要进行分析,分析方法主要有两种,第一种方法是通过F12调出调试界面进行分析,第二种方法是使用工具软件进行分析,常用的工具软件有 Fiddler

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值