fiddler 设置中文_爬虫工具--fiddler

最新推荐文章于 2024-06-14 11:05:51 发布

元楼

最新推荐文章于 2024-06-14 11:05:51 发布

阅读量3.8w

点赞数 9

文章标签： fiddler 设置中文

本文链接：https://blog.csdn.net/weixin_35414484/article/details/113071750

版权

1. 抓包工具
1.1 浏览器本身自带
右键审查元素--》点击network--》点击请求，右边栏请求详细信息
观察右边栏：request、headers、response（上一篇文章演示过）
query string:get 参数（以搜狗浏览器为例，任意点击一个加载选项）

Form data：post参数（一般为登录界面）

1.2 Fiddler
1.2.1 什么是fiddler

Fiddler是一个HTTP协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的“进出”Fiddler的数据（指 cookie、html、js、css等文件）。也就是说，它起到了一个中介的作用，将我们的电脑与互联网之间连接起来，并且收集到所有的电脑和互联网之间传输的数据。（将你的电脑和网络连接起来，抓取之间所传输的所有数据。电脑<-->fiddler<-->网络）
1.2.2 下载和安装
Fiddler官网：https://www.telerik.com/fiddler
a 首先点击网页右侧download now

b 然后进入如下页面，可以随便填写信息，然后点击下载安装包就可以了（我已经尝试过了）

c 最后进行安装，和以前安装一样，按照步骤进行下去，此处不过多赘述。
1.2.3配置（点击进入fiddler）
Tools--》options--》HTTPS
选中 capture HTTPS...、decrypt https trafic... 、ignore 。。。

Tools--》options--》HTTPS
点击Actions ,然后点击第一个

一直点击就可以完成，fiddler关闭重启
1.2.4 Fiddler常见图标

1.2.5 抓包
我们以后主要查看的是{json}格式：json数据、{css}：css文件、{js}:js文件
停止抓取：file--》capture 点击，将对钩取消

点击请求，右边选中inspectors

右上：HTTP请求信息
Raw——请求头部的详细信息

Webforms——请求所带参数，query_string formdata

右下：HTTP响应信息
首先点击黄色条进行解码

Raw——响应的所有信息

Headers——响应头

Json——接口返回的内容

左下黑色框，输入指令

Clear：清除所有请求
Select json：就是选择所有json请求
Select image：就是选择所有图片请求
Select HTML：就是选择所有HTML请求
？内容：搜索包含这个内容的所有请求
敲enter执行
2. Urllib库的初认识
模拟浏览器发送请求的库，Python自带的库
2.1 字符串与字节之间的转化
2.1.1 字符串（string）--》字节之间的转化(bytes) Encode（）

2.1.2 字符串(bytes)--》字节(string)

如果小括号里面不写参数，默认是utf-8

如果写，写gbk
Decode（）字节--》字符串

2.2 urllib.request的属性
urlopen(url) 返回的是响应对象的位置

urlretrieve(url,filename)

2.3 urllib.parse
（构建url，url只能由特定的字符组成，包括数字、下划线、字母。如果出现其他的，比如$ 空格中文等，要对其进行编码）
2.3.1 quote
url编码函数，将中文进行编码，转化为%xxxx
1）首先打开浏览器搜索小葵

2）复制链接到编辑器中

我们就会发现“小葵”变成了“%E5%B0%8F%E8%91%B5”，这些都说明了，网址（url）进行了编码。
3）实现网页（url）编码

2.3.2 unquote url解码函数，将%xxxx转化为中文

2.3.3 urlencode 给一个字典，将字典拼接为query_string，并且实现了编码的功能。
由于quote不仅给关键字进行编码，同时也使网址本来的格式发生改变，因此给完整的网页进行编码使用urlencode()函数。
1）将所要进行编码的关键字进行定义
2）将关键字写成字典（{}表示）
3）用函数拼接为query_string
4）组成完整url

2.4response
2.4.1 read() 读取相应内容（源码），内容为字节类型（二进制格式）

2.4.2 geturl() 获取请求的url

2.4.3 getheaders() 获取头部信息，列表里面有元祖

2.4.4 getcode() 获取状态码（200是响应成功）

2.4.5 readlines() 按行读取，返回列表，都是字节类型

3 get 方式

4 构建请求头部信息
1）运行一下代码

2）打开fiddler，再运行代码

本身代码没有出错，但是如果打开fiddler就会报错，原因是因为打开fiddler，表明了是Python去访问，因此访问被拒绝。此时，我们需要添加头部信息。也就是User-Agent 信息，伪装成是浏览器进行访问。

4.1 请求头部
4.1.1 认识请求头部信息
打开fiddler，再打开百度，出现以下信息

Accept-encoding:允许压缩类型
User-agent:身份标识（Python）这时候看是否有反爬机制，如果有就不可以。此时，显示的是浏览器的身份。UA:不同浏览器，ua不同
4.1.2 了解ua
1）在网上搜索ua,可以查看各种浏览器的ua

2）伪装自己的UA，让服务端认为你是浏览器在上网
构建请求对象：urllib.request.Request(url=url,headers=headers)

元楼

关注

9
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
fiddler 设置中文_爬虫工具--fiddler

1. 抓包工具1.1 浏览器本身自带右键审查元素--》点击network--》点击请求，右边栏请求详细信息观察右边栏：request、headers、response（上一篇文章演示过）query string:get 参数（以搜狗浏览器为例，任意点击一个加载选项）Form data：post参数（一般为登录界面）1.2 Fiddler1.2.1 什么是fiddlerFiddler是一个HTTP协...
复制链接

扫一扫