Scrapy突破JA3指纹(附完整代码)

吃苹果的牛顿顿

已于 2024-08-21 10:10:21 修改

阅读量396

点赞数 14

文章标签： scrapy 爬虫网络爬虫

于 2024-08-13 23:24:39 首次发布

本文链接：https://blog.csdn.net/qq_29402011/article/details/141133973

版权

前言

Scrapy突破JA3指纹限制是一个在爬虫开发中经常遇到的问题，尤其是当目标网站采用了基于TLS指纹（如JA3指纹）的反爬虫机制时。JA3指纹是一种基于TLS握手过程中客户端发送的加密套件和扩展信息的唯一标识符，网站可以通过分析这些指纹来识别并阻止非法的爬虫请求

在这里插入图片描述

思路

自定义Scrapy的下载处理器，以控制TLS握手过程。

具体步骤：

创建一个自定义的下载处理器类，继承自Scrapy的HTTPDownloadHandler。
在自定义的下载处理器中重写处理TLS握手的方法，以使用不同的加密套件或TLS扩展。
在Scrapy的设置中配置使用自定义的下载处理器。

示例代码

# 安装Scrapy 2.6或更高版本
pip install Scrapy==2.6
pip install scrapy-ja3


from scrapy import Request, Spider


class Ja3TestSpider(Spider):
    name = 'ja3_test'

    custom_settings = {
        'DOWNLOAD_HANDLERS': {
            'http': 'scrapy_ja3.download_handler.JA3DownloadHandler',
            'https': 'scrapy_ja3.download_handler.JA3DownloadHandler',
        }
    }

    def start_requests(self):
        start_urls = [
            'https://tls.browserleaks.com/json',
        ]
        for url in start_urls:
            yield Request(url=url, callback=self.parse_ja3)

    def parse_ja3(self, response):
        self.logger.info(response.text)
        self.logger.info("ja3_hash: " + response.json()['ja3_hash'])