04python3.0爬虫之反爬虫(随机User Agent、获取代理IP)

随机User Agent

  • 安装和导入
# 安装fake_useragent
pip install fake_useragent

# 导入fake_useragent
from fake_useragent import UserAgent
  • 获取User-Agent
ua=UserAgent()
print(ua.ie)
print(ua.chrome)
print(ua.firefox)
print(ua.safari)
print(ua.opera)
print(ua.random)  # 随机获取一个User Agent

获取代理IP

  • 代理ip网站
有代理:https://www.youdaili.net/Daili/guonei/
66代理:http://www.66ip.cn/6.html
西刺代理:https://www.xicidaili.com/
快代理:https://www.kuaidaili.com/free/
  • 爬取快代理
def get_proxy_ip(page_size=1):
    proxy_map_list=list()
    for page in range(1,page_size+1):

        url="https://www.kuaidaili.com/free/inha/{0}/".format(page)
        resp=requests.get(url)
        resp.encoding="uft-8"
        soup=BeautifulSoup(resp.text,"lxml")
        tr_list=soup.find("tbody").find_all("tr")
        for tr in tr_list:
            proxy_map_list.append({one_proxy_info.attrs.get("data-title"):one_proxy_info.text for one_proxy_info in tr.find_all("td")})
        time.sleep(1)
    return proxy_map_list
  • 使用代理和User-Agent
def use_proxy():
    url = "http://10.0.0.152/platform-supplier#/account/login"
    # User-Agent添加到header中
    header={"User-Agent":UserAgent().random}
    # proxy:
    # http:url的协议为http则使用http的代理
    # https:url的协议为https则使用https的代理
    # 代理需要IP+Port
    proxy={"http":"1.196.105.154:9999","https":"1.196.105.154:9999"}
	
	# proxies:添加代理
	# verify:是否校验ssl证书
	# timeout:设置请求的超时时间
    resp = requests.get(url,proxies=proxy,headers=header,timeout=5,verify=False)
    resp.encoding = "uft-8"
    return resp.text
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值