python3爬虫(5)--构造随机User-Agent池、构造免费随机ip池、常见异常处理

最新推荐文章于 2024-08-18 13:26:49 发布

Jalen data analysis

最新推荐文章于 2024-08-18 13:26:49 发布

阅读量1.6k

点赞数 2

分类专栏： python数据采集文章标签： python3 python3爬虫 python设置代理ip python爬虫异常处理

本文链接：https://blog.csdn.net/weixin_41685388/article/details/104064174

版权

在Python3爬虫中，应对反爬虫机制，需要建立User-Agent和IP池。本文介绍了如何从CSV文件中读取User-Agent和IP，以及如何处理代理IP请求失败、请求超时等常见异常。通过案例提供了初步解决方案，鼓励在实际开发中继续优化。

摘要由CSDN通过智能技术生成

利用python进行数据采集的过程中，很多网站都设置了反爬虫机制，其中最常见的就是相同的User-Agent、ip或者Cookie不能连续进行数据采集，所以我们需要构建很多User-Agent、ip或者Cookie以防止被封停。同时批量采集数据时会出现很多常见异常。

1、构造有很多方法，这里我们就将众多的User-Agent和ip存在csv文件中，供我们数据采集的时候使用。

2、代理ip请求失败怎么解决？

我们使用的免费代理ip很多时候回面临过期的问题，此时请求就会报错：requests.exceptions.ProxyError:....。

ip池中有很多的ip，有些不能用很正常，出现该错误的时候我们重新请求用其他的ip来请求就可以啦。

同时还经常出现请求超时，url 解析错误，或者页面不存在等常见问题。

案例中都有相应的解决办法，当然这个代码是不完善的，理解后，在实际开发过程中进一步去优化代码即可。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
from lxml import etree
from requests.exceptions import ConnectTimeout,ProxyError
import random
import csv
import time

def User_Agent_and_proxies():
    global Headers, proxies  #设置为全局变量
    Headers = {} #构造随机User-Agent池
    User_Agent = open(r'User-Agent.csv','r+',encoding='UTF-8') #打