python异步爬虫设置时间间隔_用sleep间隔进行python反爬虫的实例讲解

weixin_39653622

于 2021-02-10 11:29:51 发布

阅读量2k

点赞数

文章标签： python异步爬虫设置时间间隔

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39653622/article/details/113981094

版权

在找寻材料的时候，会看到一些暂时用不到但是内容不错的网页，就这样关闭未免浪费掉了，下次也不一定能再次搜索到。有些小伙伴会提出可以保存网页链接，但这种基本的做法并不能在网页打不开后还能看到内容。我们完全可以用爬虫获取这方面的数据，不过操作过程中会遇到一些阻拦，今天小编就教大家用sleep间隔进行python反爬虫，这样就可以得到我们想到的数据啦。

步骤

要利用headers拉动请求，模拟成浏览器去访问网站，跳过最简单的反爬虫机制。

获取网页内容，保存在一个字符串content中。

构造正则表达式，从content中匹配关键词pattern获取下载链接。需要注意的是，网页中的关键词出现了两遍(如下图)，所以我们要利用set()函数清除重复元素。

第三步是遍历set之后的结果，下载链接。

设置time.sleep(t)，无sleep间隔的话，网站认定这种行为是攻击，所以我们隔一段时间下载一个，反反爬虫。

具体代码

结果展示

为了让大家能够清楚的知道整个反爬过程，这里小编把思路和代码都罗列了出来。其中可以time.sleep(t)解除网站对于爬虫的阻拦问题，着重标记了出来

weixin_39653622

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。