![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
飞舞的羽毛
这个作者很懒,什么都没留下…
展开
-
【转载】python requests.post 阻塞/很慢问题
第一次写post请求,发现请求一次没有问题,连续请求就特别慢,最后在此博客找到解决方案。http://blog.szwyll.com/archives/1227 requests.post,这货默认是阻塞的,除非显式指定了timeout值,否则不会做超时处理。 1 response = requests.post(url, data = body, headers = http_headers, timeout=5 ) ...转载 2021-04-12 16:38:40 · 2238 阅读 · 0 评论 -
新手爬虫采集常遇到的墙问题
但凡多采集一些网站,多持续采集一段时间,就一定会被管理员发现,他们可能采取一系列的手段来阻止我们的采集过程。主要表现就是访问不了了、访问几次就断了,然后手动访问,或者换个终端以后完全没问题。 面对这种情况,首先,我们要明确以下几个问题: 我的爬虫是否过于频繁访问,给对方服务器带来了不可承受的负担,影响了对方服务器的业务? 我的爬虫是否在采集对方不对外公布的信息,导致触犯了对方的防御机制? 我的爬...原创 2020-02-13 12:26:39 · 552 阅读 · 0 评论 -
【转载】爬虫常见反爬思路
原始链接:https://blog.51cto.com/14237227/2362691 爬虫立场 爬虫的目的就是大规模地、长时间地获取数据,不过,总使用一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝,爬虫长时间爬取数据,还可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。 下面5个技巧是爬虫常用的:技巧一:设置下载等待时间/下载频率 大规模集中访问对服...转载 2020-02-13 08:50:34 · 255 阅读 · 0 评论