爬虫数据抓包

最新推荐文章于 2024-07-17 20:12:40 发布

leiline

最新推荐文章于 2024-07-17 20:12:40 发布

阅读量4.9k

点赞数

分类专栏： python 爬虫文章标签：爬虫 http协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leiline/article/details/54808611

版权

本文介绍了爬虫抓包的重要性，详细讲解了HTTP协议的各个方面，包括HTTP方法（GET、POST、PUT、DELETE）、状态码、头部参数、Cookie、ETAG和If-Modified-Since，以及GET和POST的区别。通过理解这些概念，有助于提升爬虫开发的效率和准确性。

摘要由CSDN通过智能技术生成

抓包分析是爬虫研发的最基础和关键的步骤。要足够细心和耐心，开发时应采取循序渐进的步骤，并在每个关键环节留有日志输出，方便爬虫问题的问题跟踪与追根溯原。

http协议

http method

get 查询
post 更新
put 上传
delete 删除
在实际应用中，get post应用的比较多。

status code

1** - 代表服务器已经收到信息，但还没有处理完，将继续。

最原始的ajax请求中，是以判断status code来决定是否该次的ajax异步请求完成，或状态。
2** - 返回状态，一般是代表成功终止，即正常的一次请求完成。

200 - ok
3** - 请求的转移

301 - 永久转移，会在响应头中跟随location这个key,来标志下次该跳转的目标URL地址。
302 - 临时转移
304 - 无更新，从缓存中取数据。
4** - 客户端错误

400 - 客户端格式错误
401 - 无权限
403 - 禁止访问
404 - file not found
5** - 服务器错误

500 - 服务器端处理中出现异常

http header参数

accept：客户端可接受的数据类型
text/html 即html的文本
application/xhtml+xml 即xhtml&#x

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。