fiddler 设置中文_爬虫工具--fiddler

62db3b7d45467668bc9b920223fdece8.png

1. 抓包工具
1.1 浏览器本身自带
右键审查元素--》点击network--》点击请求,右边栏请求详细信息
观察右边栏:request、headers、response(上一篇文章演示过)
query string:get 参数(以搜狗浏览器为例,任意点击一个加载选项)

a3c6fb85a065598a2cfa29f67e316c6b.png


Form data:post参数(一般为登录界面)

51a94071969f1749a4d690373156fba3.png

248e172f3441ed0da7edf94316ff9054.png


1.2 Fiddler
1.2.1 什么是fiddler

6a2a846b24e697a2fc2a07c6ae7f2d18.png


Fiddler是一个HTTP协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指 cookie、html、js、css等文件)。也就是说,它起到了一个中介的作用,将我们的电脑与互联网之间连接起来,并且收集到所有的电脑和互联网之间传输的数据。(将你的电脑和网络连接起来,抓取之间所传输的所有数据。电脑<-->fiddler<-->网络)
1.2.2 下载和安装
Fiddler官网:https://www.telerik.com/fiddler
a 首先点击网页右侧download now

978ccfc993fa4592593377868bc3bdf4.png



b 然后进入如下页面,可以随便填写信息,然后点击下载安装包就可以了(我已经尝试过了)

a25794866878f08ad97676c0322be242.png


c 最后进行安装,和以前安装一样,按照步骤进行下去,此处不过多赘述。
1.2.3配置 (点击进入fiddler)
Tools--》options--》HTTPS
选中 capture HTTPS...、decrypt https trafic... 、ignore 。。。

c2479a4c2029fe1c2dbc3287062bb298.png

0e540af257d20c6de6627ffffb661206.png


Tools--》options--》HTTPS
点击Actions ,然后点击第一个

4bb0267fae67b92f780e7bbca5722179.png

2fe81116cb43858d19b126cae3ee4f87.png

8f3bc69f03290a00a492fe4db8563d43.png


一直点击就可以完成,fiddler关闭重启
1.2.4 Fiddler常见图标

d5b62b83c07fa850db6193a646781291.png


1.2.5 抓包
我们以后主要查看的是{json}格式:json数据、{css}:css文件、{js}:js文件
停止抓取:file--》capture 点击,将对钩取消

5bedd02c4441a2aa0987f2a93d48d690.png


点击请求,右边选中inspectors

5471a34fd8fc4acb3dc939fba496fcd3.png

26c2c283fd13e547433f2c17a500dd0c.png


右上:HTTP请求信息
Raw——请求头部的详细信息

6e0f128b6147776b4dcf6a9ff4cd37e0.png


Webforms——请求所带参数,query_string formdata

56346a224300019f37bb5d485e9af2cc.png


右下:HTTP响应信息
首先点击黄色条进行解码

a5589b31003b1159163e9062264f4c11.png


Raw——响应的所有信息

b1cc0fad3a4d7ab07165749f8c8c5ca7.png


Headers——响应头

554b6f9d62ae912a0bfbb76f2a671dee.png


Json——接口返回的内容

10b00af19bb0f0613f1b55ef73484f0b.png


左下黑色框,输入指令

d9695ad6001c5afab7a2d2842c14f3fd.png


Clear:清除所有请求
Select json:就是选择所有json请求
Select image:就是选择所有图片请求
Select HTML:就是选择所有HTML请求
?内容:搜索包含这个内容的所有请求
敲enter执行
2. Urllib库的初认识
模拟浏览器发送请求的库,Python自带的库
2.1 字符串与字节之间的转化
2.1.1 字符串(string)--》字节之间的转化(bytes) Encode()

0f1d1507a43a4f0054083b57a49beb7e.png


2.1.2 字符串(bytes)--》字节(string)

1e105bea3988eac9a9a6f96979efd7a3.png


如果小括号里面不写参数,默认是utf-8

0d434c5c6060917fcdcd9c16ebc43c1c.png


如果写,写gbk
Decode() 字节--》字符串

31d023e9e766a982ccb57a25252fc6d5.png


2.2 urllib.request的属性
urlopen(url) 返回的是响应对象的位置

6e319a8dd912e823b72380836412d21b.png


urlretrieve(url,filename)

641c19397f48066920b709ea1c9ff8cc.png

2609b22407967b9756dea96210a7f363.png

99b9d68ae41db5b806565bfab45e2de1.png


2.3 urllib.parse
(构建url,url只能由特定的字符组成,包括数字、下划线、字母。如果出现其他的,比如$ 空格 中文等,要对其进行编码)
2.3.1 quote
url编码函数,将中文进行编码,转化为%xxxx
1)首先打开浏览器搜索小葵

086090455bdf6d50654fd32477ff538f.png


2)复制链接到编辑器中

d83aa9995c2ebe58584600a662c13e28.png


我们就会发现“小葵”变成了“%E5%B0%8F%E8%91%B5”,这些都说明了,网址(url)进行了编码。
3)实现网页(url)编码

b4eebabe2e909857e24f67b50e6706f4.png


2.3.2 unquote url解码函数,将%xxxx转化为中文

c226850e4fd81e3f0390fcaa94bae4cc.png


2.3.3 urlencode 给一个字典,将字典拼接为query_string,并且实现了编码的功能。
由于quote不仅给关键字进行编码,同时也使网址本来的格式发生改变,因此给完整的网页进行编码使用urlencode()函数。
1)将所要进行编码的关键字进行定义
2)将关键字写成字典({}表示)
3)用函数拼接为query_string
4)组成完整url

b50a962969bfbdff52f5335d47ffa434.png


2.4response
2.4.1 read() 读取相应内容(源码),内容为字节类型(二进制格式)

2bdf269b884f23cbc5753909a6aabf83.png


2.4.2 geturl() 获取请求的url

aa6abc4a637881d5a212fb549a5f2fcc.png


2.4.3 getheaders() 获取头部信息,列表里面有元祖

be4a0c91f6c79a2ebea28b3c9897ba49.png


2.4.4 getcode() 获取状态码(200是响应成功)

dc8687e8f136a0741510d0dcbf9792c7.png


2.4.5 readlines() 按行读取,返回列表,都是字节类型

981ebbd39b472cb187e7019f713a010b.png



3 get 方式

d69b77717d3d03898b83ce29cba8e62f.png


4 构建请求头部信息
1)运行一下代码

ea8e0b8fbcc0433b9209ab9f9efe58c8.png


2)打开fiddler,再运行代码

ad4e3aee873998fc69a702474aa03a3d.png


本身代码没有出错,但是如果打开fiddler就会报错,原因是因为打开fiddler,表明了是Python去访问,因此访问被拒绝。此时,我们需要添加头部信息。也就是User-Agent 信息,伪装成是浏览器进行访问。

56340e7cc71534f7b1c1ee913a4e6021.png


4.1 请求头部
4.1.1 认识请求头部信息
打开fiddler,再打开百度,出现以下信息

78fcd6a55e35ca14bc7579cfca51c975.png

333c2a8709dc935731d32b17b4e1e827.png

Accept-encoding:允许压缩类型
User-agent:身份标识(Python) 这时候看是否有反爬机制,如果有就不可以。此时,显示的是浏览器的身份。UA:不同浏览器,ua不同
4.1.2 了解ua
1)在网上搜索ua,可以查看各种浏览器的ua

bdadc413acb158fadeadcd65a7d351a3.png


​2) 伪装自己的UA,让服务端认为你是浏览器在上网
构建请求对象:urllib.request.Request(url=url,headers=headers)

0ade648dec673972f8658fa9c5ded85f.png

b3b240fe115ffae80836f74493355a2f.png
  • 9
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值