python笔记-爬虫-02

persistenthuang

于 2020-05-13 22:15:44 发布

阅读量141

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43309907/article/details/106100771

版权

python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

python笔记

URL

scheme://host:port/path/?query-string*xxx#anchor

scheme：访问协议 http、https、ftp等
host：主机名，域名 www.baidu.com
port：端口号。访问网址的时候，浏览器默认是80
path：查找路径
query-string：查询字符串
anchor：锚点，后台不用管，前端用来做定位的

请求方法
http请求方法
常见的请求方法：GET, POST 和 HEAD方法。
请求头常见参数：

User-Agent：默认是python
Referer：表示你是从哪个页面过来的（反爬虫机制）
Cookie：同一个人发送两次操作，服务器是不能识别的，可以记录在cookie里，一般要登陆才能访问的网站，就需要cookie信息了

常见的响应状态码：

200：请求正常，正常返回数据
301：永久重定向
302：临时重定向
400：请求的 URL 在服务器傻瓜找不到（URL错误）
403：服务器拒绝访问，权限不够。
500：服务器内部错误，可能是服务器出现了 BUG

抓包工具：
Fiddler

persistenthuang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python笔记-爬虫-02

python笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。