Python 爬虫绕过服务器端验证

文章描述了当Python爬虫访问modakawa.com时遇到的问题,原因是站点启用了服务器防护。为解决此问题,文章提供了一个自定义的CipherAdapter类,该类修改了加密套件并挂载到请求会话中,同时设置了User-Agent头,以成功发送请求并获取页面内容。
摘要由CSDN通过智能技术生成

情景再现

Python 爬虫请求链接:https://www.modakawa.com/products/sports-high-rise-waistband-2-in-1-shorts?variant=ea7bfab8-695c-4ab8-9b32-52c7163590ff

返回以下页面HTML信息

原因描述

该问题主要是由于站点【modakawa.com】运营商开启服务器防护导致。

解决方式

开启请求会话并且挂载适配器

import requests
import json
from requests.adapters import HTTPAdapter
from urllib3.util.ssl_ import create_urllib3_context

class CipherAdapter(HTTPAdapter):
    def init_poolmanager(self, *args, **kwargs):
        context = create_urllib3_context(ciphers='DEFAULT:@SECLEVEL=2')
        kwargs['ssl_context'] = context
        return super(CipherAdapter, self).init_poolmanager(*args, **kwargs)

    def proxy_manager_for(self, *args, **kwargs):
        context = create_urllib3_context(ciphers='DEFAULT:@SECLEVEL=2')
        kwargs['ssl_context'] = context
        return super(CipherAdapter, self).proxy_manager_for(*args, **kwargs)

url = 'https://www.modakawa.com/products/sports-high-rise-waistband-2-in-1-shorts?variant=ea7bfab8-695c-4ab8-9b32-52c7163590ff'
client = requests.Session()
client.mount( url, CipherAdapter())
client.headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
resp = client.get(url)
client.close()

result =json.loads( resp.content )
print( result )

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值