爬虫小问题（4）：

最新推荐文章于 2023-03-16 08:35:49 发布

F3519797075

最新推荐文章于 2023-03-16 08:35:49 发布

阅读量284

点赞数

分类专栏：爬虫小问题文章标签： python 爬虫

原文链接：https://blog.csdn.net/xunxue1523/article/details/104662965/

版权

爬虫小问题专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本文探讨了在爬虫过程中遇到的两种常见问题：空URL导致的请求异常和高频率爬取引发的ConnectionResetError。为解决这些问题，提出了包括if判断、异常处理、设置请求间隔和超时等策略。同时，对于被网站服务器识别为反爬的情况，建议使用延时、关闭响应和调整请求设置等方法来避免被封禁。

摘要由CSDN通过智能技术生成

1、爬取到的url部分为空值

问题描述和分析：在爬取的一些网站中，有些比如目录开始之前会有空url。无法发起request请求，导致爬虫中断。

解决方法：1、加上一个if判断语句，只对列表中符合要求的url发起后续请求。

2、抛出异常，保存日志或者重新请求，或者加请求超时。用try语句抛出异常，防止程序中断。

2、ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。

问题描述：

爬虫爬取的频率太高，被网站服务器发现并实施反爬，会被远程中断连接。

解决方法：

1、设置sleep()等待一段时间后继续下面的操作【简单常用】

import time

time.sleep(t)

2、在request后面写入一个关闭的操作

response.close()

3、设置socket默认的等待时间，在read超时后能自动往下继续跑

socket.setdefaulttimeout(t_default)

4、防止循环时某一个请求失败导致循环退出，从而程序退出【常用】

抛出异常，保存日志或者重新请求，或者加请求超时。=

try:

html = requests.get(pic, headers=Hostreferer, timeout=15)

print('成功')

except requests.exceptions.RequestException as e:

print(e)

print('失败')

continue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。