python爬虫进阶系列二:Fidder抓包分析

Fidder简介

在前面爬虫入门的时候,就提到过一嘴Fidder,我们使用它来抓包。什么是抓包呢?简单来说,就是对浏览器与软件或者外界进行交互时传输的数据进行截获,重发,编辑,转存的过程。

为什么我们需要抓包呢?
1.有些网址的变化我们是看不出规律的,此时如果我们想要自动化爬取网页,就必须通过程序构造请求——那么我们就需要分析这些请求的规律——使用Fidder可以截获这些请求并进行分析

2.我们浏览网页时,有点时候会因为页面加载的问题,页面会显示“加载更多”——但这并没有改变网址,我们必须手动点击才能将下面的内容加载出来,这时我们也可以使用抓包软件来分析这些请求的规律,然后构造请求来完成自动化“加载更多”——(当然这里我们也可以使用selenium实现)

3.在模拟登录的时候,很多时候真实的登录处理网站并不是我们看到的网站,这时我们需要抓包软件分析出真正的地址来帮助我们完成模拟登录

可以看到抓包分析对我们爬取稍微复杂的网页时大有帮助,所以这里简单的介绍以下众多抓包软件中应用广泛的一款——Fidder


Fidder的基本原理

为什么Fidder能够实现抓包呢?这里简单讲解一下它的基本原理

我们知道本地应用和服务器通过收发信息进行数据交换,而Fidder就充当了一个代理服务器架在本地应用(比如浏览器)和服务器(架设在网络另一端数据存储的地方)之间,那么这样所有的数据收发都会经过它,自然Fidder就能截获数据,实现网络数据的抓包


Fidder窗口简介

首先我们安装好Fidder,初始界面是这样的:
在这里插入图片描述

当我们使用浏览器打开一个网页时,它的最左边这个状态栏就会捕获一系列会话(这里以百度为例)

在这里插入图片描述
会话图标的具体含义贴在这里:
在这里插入图片描述
我们可以根据图片来判断每一个会话的类型

我们打开一个会话,然后可以通过右边的上下两个窗口来查看请求的内容和请求返回的内容(这里打开了一个返回图片的请求)
在这里插入图片描述
我们可以看到请求的头和请求返回的内容的头(当然我们还有其他的内容可以抓取,比如网页返回的HTML和这个图片会话返回的图片)


quickexec 命令行

在会话列表的最下面有一行黑色的命令行,我们可以输入一些命令来实现清理和筛选会话的功能

  • cls : 清屏命令——清空当前会话窗口中所有的会话
  • select : 选择某一类型的会话,比如select html——选择所有的html会话
  • ? : 查找网址中包含某些字符的会话,比如?baidu,就能查找网址中所有包含该字符串的会话

断点功能

当我们希望在传递的中间进行修改之后再继续进行传递时,我们需要用到Fidder的断点功能

Fidder的断点功能可以实现:

  • 拦截响应数据, 进行修改
  • 修改请求头, 模拟真实用户请求
  • 构造请求数据,进行数据提交

断点分为两种:响应时断点 和 请求时断点

第一种断点方法

第一种断点方法是从rules中进行设置
在这里插入图片描述
这种设置是全局断点——也就是会中断所有网址的响应信息

我们可以设置好响应信息之后将该信息返回给浏览器

在这里插入图片描述
点击 run to completion来执行响应


第二种断点方法

我们可以在命令行中输入

bpuafter 这里填上你要设置断点的网站

再次输入bpuafter可以取消该响应中断

注意!这种断点设置只能终端你输入的网站的响应,对其他网站的响应没有影响

设置请求中断:

bpu 网址 a

取消请求中断:

bpu

会话查找以及过滤功能

我们可以通过快捷键CTRL+F来调用会话查找功能,输入关键字之后,包含该关键字的会话会高亮

在这里插入图片描述
然后是过滤功能,通过过滤功能能够只截获符合要求的请求和响应

在这里插入图片描述
设置好需要过滤的域名之后点击 Actions 中的 Run Filterset now

最后会话列表就只剩下与我们设置的域名相关的信息,其他的信息就会被隐藏了!

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

国家一级假勤奋研究牲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值