python谷歌网页爬虫_python爬虫01在Chrome浏览器抓包

最新推荐文章于 2024-04-17 07:03:46 发布

weixin_39747511

最新推荐文章于 2024-04-17 07:03:46 发布

阅读量158

点赞数

文章标签： python谷歌网页爬虫

尽量不要用国产浏览器，很多是有后门的

chrome是首选

百度

按下F12

element标签下对应的HTML代码

点击Network，可以看到很多请求

HTTP请求的方式有好几种，GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE

不过最常见的就是GET和POST请求

get：

https://www.baidu.com/s?wd=内容

post：

信息提交注册登陆

post的参数不会直接放在URL上，会以Form表单的形式将数据提交给服务器

可以发现，

GET请求把请求参数都暴露在URL上

而POST请求的参数放在request body里面

POST请求方式还对密码参数加了密

请求头

Pequest Header

我们在做 HTTP 请求的时候

除了提交一些参数之外

我们还有定义一些 HTTP 请求的头部信息

比如 Accept、Host、cookie、User-Agent等等

这些参数也是我们在做爬虫要用到

通过这些信息，欺骗服务器，告诉它我们是正规请求

比如

我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话

User-Agent 告诉服务器我们是浏览器请求的

响应

这些 404 啊，200啊，301啊，502啊

都是服务器的响应码

一般服务器给我们返回 200

那就说明

我们成功请求了

响应头

这个头主要是告诉我们数据以什么样的形式展现

告诉我们cookie的设置

响应体

说白了，就是服务器返回给我们的数据

我们点击 Response 就可以看到相关的数据了

对于不同的请求

我们获取到的数据是不一样的

除了 HTML的，也有 JSON 的

图片二进制数据等等

可以针对不同的情况

用不同的手段来解析这些数据

所谓抓包

就是我们摸清了浏览器里面的套路

知道它是怎么搞的

那么通过我们的请求

GET 请求也好

POST 请求也罢

只要知道请求方式

只要知道请求参数

只要知道请求头定义

只要知道怎么拿到返回的数据

weixin_39747511

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python谷歌网页爬虫_python爬虫01在Chrome浏览器抓包

尽量不要用国产浏览器，很多是有后门的chrome是首选百度按下F12element标签下对应的HTML代码点击Network，可以看到很多请求HTTP请求的方式有好几种，GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE不过最常见的就是GET和POST请求get：https://www.baidu.com/s?wd=内容post：信息提交注册登陆post的参数不会直接...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。