一个小小的爬虫技巧

最新推荐文章于 2024-08-24 00:15:00 发布

sjxlaoxu

最新推荐文章于 2024-08-24 00:15:00 发布

阅读量215

点赞数

分类专栏： seo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjxlaoxu/article/details/102821087

版权

seo 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写过爬虫的同学对 requests 库应该非常熟悉了，这个库是如此的好用。

但今天我就遇到了使用浏览器可以正常访问，一旦使用 requests 去 get 此网站，IP 就会被封，然后浏览器也无法访问。需要等待几个小时之后才能访问。

过了几个小时，我又使用浏览器访问了此 url a，打开谷歌浏览器的开发者工具，发现浏览器先请求另了一个 url b 获取了 cookie ，然后又使用此 cookie 去访问目标 url a。

于是尝试将此 cookie 放在 headers 中，传入 requests 的 get “126”参数中，发现访问成功。

如果想完全自动化，有两种方法：

较简单的方法，使用 selenium 或者 splinter 直接访问目标网站，获取相关信息，如果仍想使用 requests 则可以将 selenium 或者 splinter 获取到的 cookie 传给 requests 使用。

较标准的方法，使用 request 先访问 url b 获取 cookie，注意包装好仿浏览器的 headers。然后再使用此 cookie 访问目标网站。

希望今天的分享能够帮助到你。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。