Scrapeless 抓取浏览器 - 浏览器指纹定制

在过去的三十年里,浏览器一直是互联网的主要门户。从改变人们访问网络方式的早期先驱 Mosaic 和 Internet Explorer,到如今以 Chrome 为首的主流产品,浏览器始终是信息检索、任务执行和上下文交互的核心环境。

随着人工智能的迅速崛起,浏览器的角色正在经历前所未有的转变。无论是 Opera Aria、Perplexity,还是 OpenAI 目前正在孵化的产品,一种共识正在逐渐形成:人工智能需要一个专属的浏览器——一个专为任务执行和上下文理解而构建的平台,而不仅仅是嵌入在传统浏览器中的插件。

从AI融合角度来看,AI浏览器产品大致可以分为三类:

  • 传统浏览器通过人工智能进行了增强,通常以副驾驶式助手的形式出现,例如 Microsoft Edge 和 Chrome 的浏览器扩展。

  • 浏览器在核心层面内置了 AI 功能,可实现增强的权限和交互 - 例如,用于组织标签的 Arc Max 或用于执行任务的 Opera Aria。

  • 专用的AI原生浏览器,这是Scrapeless背后的基本愿景。在此模型中,用户与在虚拟机中运行的浏览器中运行的AI进行交互,从而提供更完整、更自主的解决方案。

Scrapeless Scraping 浏览器正是基于这一愿景而诞生。它专为 AI 代理设计,不仅解决了高并发和任务自动化的挑战,更突破了 AI 执行能力的极限。然而,在实际部署中,一个关键的局限性逐渐显现:尽管拥有强大的命令和网页控制能力,但如果系统被目标网站标记为机器人流量,所有优势都将化为乌有。这揭示了当前 AI 浏览器的一个关键技术瓶颈——浏览器指纹的真实性和多样性

为此,Scrapeless 在最新的产品更新中显著增强了指纹定制功能。通过深度定制 Chromium 引擎,Scrapeless 支持高度精细的指纹策略,确保每个虚拟浏览器实例都拥有独特的“类人”特征。这大大降低了被平台安全系统标记的风险。此次升级不仅提升了人工智能在高频任务中的运行稳定性,也为未来基于代理的系统提供了更安全、更可靠的执行环境。

在接下来的章节中,我们将深入探讨 Scrapeless 指纹层背后的技术细节,并探讨它如何成为下一代 AI 原生浏览器基础设施中的关键组件。

Scrapeless 抓取浏览器:优势和核心功能

Scrapeless Scraping Browser 是一款面向未来的云端浏览器解决方案,专为 AI 代理和自动化任务执行而设计。它集成了高性能并发处理架构、先进的浏览器指纹定制以及智能反爬虫逻辑,为用户提供稳定、高效、可扩展的数据交互平台。

无论是用于执行大规模网络任务的智能代理系统,还是用于多账户营销、动态内容提取、舆情监测等复杂场景,Scrapeless 都能提供安全、隐秘、智能的环境模拟能力,有效绕过传统的反机器人机制和指纹检测限制。

关键技术优势

1. 真实的浏览器环境
  • Chromium 引擎支持:提供功能齐全的浏览器环境来模拟真实的用户行为。

  • TLS 指纹欺骗:掩盖 TLS 指纹以绕过传统的机器人检测系统并显示为常规浏览器。

  • 动态指纹混淆:随机调整浏览器环境变量(例如,用户代理、Canvas、WebGL)以增强类似人类的行为并逃避复杂的反机器人策略。

2.基于云的架构和可扩展性
  • 云部署:完全基于云,无需本地资源,支持全球分布式部署。

  • 高并发支持:可从数十个并发会话扩展到无限个并发会话 - 非常适合大规模抓取和复杂自动化。

  • 轻松集成:完全兼容现有自动化框架(例如 Playwright 和 Puppeteer),无需重构代码。

3. 专为人工智能代理打造
  • 自动化代理支持:提供强大的代理功能,帮助 AI 代理执行复杂的浏览器自动化任务。

  • 灵活调用:支持多任务并行执行,是构建智能代理系统和AI驱动应用程序的理想工具。

核心功能

1. 浏览器指纹深度定制

浏览器指纹是根据浏览器和设备配置生成的唯一数字标识符,通常用于在没有 Cookie 的情况下追踪用户活动。Scrapeless Scraping Browser 支持完全自定义这些指纹,支持调整用户代理、时区、语言、屏幕分辨率和其他关键参数,从而增强多账户管理、数据收集和隐私保护。

Scrapeless 通过对浏览器公开的标准化参数进行可控的调整,帮助用户构建高度“真实”的浏览环境。以下是目前支持的主要指纹自定义功能:

用户代理控制

允许在 HTTP 请求标头中自定义 User-Agent 字符串来模拟特定的浏览器版本、操作系统和设备环境,从而增强隐蔽性和兼容性。

屏幕分辨率映射

允许自定义 screen.width 和 screen.height 的值来模拟常见的设备显示尺寸,支持响应式渲染并抵制设备指纹策略。

平台属性锁定

可以自定义 navigator.platform 返回值来模拟标准平台类型(例如 Windows、macOS、Linux),影响网站如何适应不同的操作系统环境。

本地化环境模拟

全面支持自定义浏览器本地化设置,影响网站内容本地化、时间格式渲染以及语言偏好推断。支持的参数包括:

  • localization.timezone:设置符合 IANA 标准的时区标识符(例如,亚洲/上海)

  • localization.locale:设置符合 BCP 47 的语言区域代码(例如 zh-CN)

  • localization.languages:为 navigator.languages 和 Accept-Language HTTP 标头定义优先语言列表

范围描述
localization.timezone设置时区标识符(符合 IANA 格式,例如Asia/Shanghai
localization.locale设置语言和地区(符合 BCP 47 格式,例如zh-CN
localization.languages定义语言优先级列表,映射到navigator.languagesHTTPAccept-Language标头

为了实现更高级的指纹自定义功能(例如 Canvas、WebGL、字体检测等),Scrapeless 正在持续开发中。未来,它将支持更精细的环境模拟功能——敬请期待。

Scrapeless抓取浏览器指纹参数详解

参数名称类型描述
userAgent细绳定义浏览器 HTTP 请求标头中的 User-Agent 字符串,其中包含浏览器引擎、版本、操作系统和其他关键标识符。网站使用此字符串进行客户端环境检测,从而影响内容适配和功能可用性。默认值:遵循浏览器
platform枚举指定 JavaScriptnavigator.platform属性的返回值,指示运行时环境的操作系统类型。可选值:"Windows""macOS""Linux"。这用于功能检测和启用特定于操作系统的行为。默认值: Windows
screen目的定义浏览器报告的物理显示特性,直接映射到JavaScript的window.screen对象。
screen.width数字物理屏幕宽度(以像素为单位),映射到screen.width,影响媒体查询和响应式布局。默认值:使用指纹随机化,最小 640
screen.height数字屏幕物理高度(以像素为单位),映射到screen.height,与宽度一起定义分辨率。默认值:使用指纹随机化,最小 480
localization目的控制浏览器的本地化设置,包括语言、区域和时区。这些设置会影响格式和内容的本地化。
localization.timezone细绳符合 IANA 数据库的时区标识符(例如"Asia/Shanghai"),控制 JavaScript 日期对象的行为和Intl.DateTimeFormat输出。时区指纹识别的关键部分。默认值: America/New_York
localization.languages[细绳]支持语言的优先列表,映射到navigator.languagesHTTPAccept-Language标头,影响网站语言选择。默认值: "en""en-US"
2. 验证码解决能力

Scraping Browser 具有先进的 CAPTCHA 解决解决方案,可以自动处理大多数主流 CAPTCHA 类型,包括 reCAPTCHA 和 Cloudflare Turnstile。

  • 业界领先的成功率: Scrapeless 提供高效的 CAPTCHA 解决方案,成功率超过 98%。

  • 无需额外费用:虽然大多数竞争对手对 CAPTCHA 解决功能收取额外费用,但 Scrapeless 将此功能作为其核心服务的一部分 - 无需额外费用。

  • 实时处理: Scrapeless 中的 CAPTCHA 解决引擎具有毫秒级的响应时间,确保任务顺利执行。

3. 灵活可控的代理集成系统

Scraping Browser 带有高度可配置的代理支持系统,允许在自动化工作流程中进行细粒度的路由和流量管理。

3.1 内置住宅代理

借助 Scrapeless 内置的托管住宅代理网络,您可以立即在全球范围内路由流量 - 非常适合绕过地理限制和反机器人措施。

  • 无需配置——开箱即可使用

  • 支持 195 个国家和地区的基于地理位置的代理

  • 稳定、高匿名代理,适合大规模自动化

  • 通过内置的 Playground 轻松测试和部署

3.2 自带代理

如果您有自己的代理服务或更喜欢特定的提供商,Scrapeless 提供灵活的代理集成:

  • 通过在会话创建期间指定参数将代理直接分配给任务

  • 使用您自己的代理将不会计入 Scrapeless 的代理使用计费

4.工具包支持

全面的自动化工具兼容性:Scrapeless 支持 Puppeteer 和 Playwright 等流行的浏览器自动化工具,方便开发人员集成。

  • AI 集成功能: Scrapeless 计划与 Browser Use、Computer Use 和 LangChain 等工具进行深度集成。未来的更新将进一步释放大型语言模型在动态 Web 交互中的潜力。

  • 易于使用:附带详细的文档和示例代码,帮助用户快速入门。

5.并发支持
  • 灵活的并发选项: Scrapeless 支持从 50 个到无限个并发会话,可从小任务扩展到大规模自动化。

  • 无额外并发费用:虽然竞争对手经常对高并发用例收费,但 Scrapeless 提供了透明灵活的定价模式,没有隐藏费用。

Scrapeless 抓取浏览器指纹参数示例代码

以下是一个简单的示例代码,展示如何通过 Puppeteer 和 Playwright 集成 Scrapeless 的浏览器指纹自定义功能:

Puppeteer 示例

const puppeteer = require('puppeteer-core');

// custom browser fingerprint
const fingerprint = {
    userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.1.2.3 Safari/537.36',
    platform: 'Windows',
    screen: {
        width: 1280, height: 1024
    },
    localization: {
        languages: ['zh-HK', 'en-US', 'en'], timezone: 'Asia/Hong_Kong',
    }
}

const query = new URLSearchParams({
  token: 'APIKey', // required
  session_ttl: 180,
  proxy_country: 'ANY',
  fingerprint: encodeURIComponent(JSON.stringify(fingerprint)),
});

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`;

(async () => {
    const browser = await puppeteer.connect({browserWSEndpoint: connectionURL});
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    const info = await page.evaluate(() => {
        return {
            screen: {
                width: screen.width,
                height: screen.height,
            },
            userAgent: navigator.userAgent,
            timeZone: Intl.DateTimeFormat().resolvedOptions().timeZone,
            languages: navigator.languages
        };
    });
    console.log(info);
    await browser.close();
})();

剧作家示例

const { chromium } = require('playwright-core');

// custom browser fingerprint
const fingerprint = {
    userAgent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.1.2.3 Safari/537.36',
    platform: 'Windows',
    screen: {
        width: 1280, height: 1024
    },
    localization: {
        languages: ['zh-HK', 'en-US', 'en'], timezone: 'Asia/Hong_Kong',
    }
}

const query = new URLSearchParams({
  token: 'APIKey', // required
  session_ttl: 180,
  proxy_country: 'ANY',
  fingerprint: encodeURIComponent(JSON.stringify(fingerprint)),
});

const connectionURL = `wss://browser.scrapeless.com/browser?${query.toString()}`;

(async () => {
    const browser = await chromium.connectOverCDP(connectionURL);
    const page = await browser.newPage();
    await page.goto('https://www.scrapeless.com');
    const info = await page.evaluate(() => {
        return {
            screen: {
                width: screen.width,
                height: screen.height,
            },
            userAgent: navigator.userAgent,
            timeZone: Intl.DateTimeFormat().resolvedOptions().timeZone,
            languages: navigator.languages
        };
    });
    console.log(info);
    await browser.close();
})();
 

Scrapeless抓取浏览器指纹定制适用场景

Scrapeless Scraping Browser 的指纹自定义功能适用于多种用例,包括但不限于以下情况:

1. 基础多账户隔离与风险控制

对于管理多个账户的用户(例如从事跨境电商或社交媒体营销的用户),Scrapeless 支持灵活配置浏览器指纹参数,例如 User-Agent、屏幕分辨率、时区和语言偏好设置。这有助于避免账户之间的环境重叠,从而显著降低平台检测和账户关联的风险。

典型应用: Shopify、Facebook、Google Ads等平台上的账户环境隔离。

2. 轻量级数据收集和反机器人规避

在执行网页抓取任务时,Scrapeless Scraping Browser 可帮助用户将其自动化操作伪装成“真实用户”流量,而非机器人活动。通过模拟主流设备配置(例如 Windows 10 + Chrome 114 + 1080p 显示器)并微调指纹细节,用户可以有效绕过目标网站的基本反机器人机制,例如:

- 用户代理黑名单

无需复杂的脚本或大规模的IP池调度,用户即可实现快速、稳定的数据采集。

典型应用:价格监控、舆情追踪、产品比较、SEO数据抓取。

3.兼容性测试

前端开发人员和 QA 工程师可以使用 Scrapeless 在不同的操作系统(例如 Windows/macOS)、屏幕尺寸和其他参数之间快速切换,以模拟不同的访问环境。这允许测试跨多种配置的渲染行为和功能完整性。

典型应用:广告活动的 A/B 测试、响应式 UI 验证。

道德声明

我们提倡负责任的指纹定制:

  • 仅用于合法授权的场景(如企业数据>合规性收集、内部风控测试)。
  • 禁止以伪造指纹等方式实施网络诈骗或侵犯用户隐私。

Scrapeless 抓取浏览器的未来路线图

展望未来,Scrapeless Scraping Browser将继续优化其核心功能,以满足从基础数据抓取到高级 AI 驱动自动化等各种需求。我们的目标是为用户提供更强大的工具和流畅的体验。以下是我们的主要开发方向:

1. 调试和监控

  • 实时预览:在游乐场内实时查看,以方便调试和任务接管。

  • 会话管理:支持会话重播、检查器工具和元数据查询,以增强任务监控和控制。

2. 文件处理

  • 上传:使用 Playwright、Puppeteer 或 Selenium 轻松将文件上传到目标网站。

  • 下载:下载的文件会自动存储在云中,并在文件名后附加 Unix 时间戳(例如,sample-1719265797164.pdf)以避免冲突。

  • 检索:通过 API 快速访问下载的文件 - 非常适合数据提取和报告生成场景。

3. Context API 和扩展支持

  • 上下文 API:启用会话持久性以优化登录流程和多步骤自动化场景。

  • 扩展支持:使用您自己的 Chrome 扩展程序增强浏览器会话。

4. 元数据查询

  • 使用自定义标签和元数据查询来过滤和定位特定会话。

5. SDK 和 API 增强功能

  • 会话 API:提供强大的会话管理功能以简化工作流程操作。

  • CDP 事件增强功能:扩大对 Chrome DevTools 协议 (CDP) 功能的支持,包括检索页面 HTML、单击元素、滚动和捕获屏幕截图。

结论

在前面的部分中,我们讨论了当前浏览器自动化工具在支持 AI 驱动的自动化任务时面临的各种挑战。这些问题严重影响了开发人员的生产力和任务的可行性:

  • 高并发瓶颈:传统浏览器在高并发请求下往往力不从心,导致任务频繁失败,在高并发场景下无法有效支撑AI驱动的自动化任务。

  • 容易被反抓取机制检测到:传统浏览器表现出可预测的行为,缺乏类似人类的智能行为模拟,这使得网站的反抓取系统很容易检测到并阻止它们,从而防止它们绕过这些保护措施。

  • 成本高:在大规模任务中,传统浏览器消耗大量资源,运行成本高,限制了任务的规模和频率,从而降低了效率。

  • 复杂的集成和学习曲线:集成传统浏览器进行自动化任务通常需要复杂的配置和编码,增加了开发人员的学习难度并降低了开发效率。

为了解决这些问题,Scrapeless Scraping Browser 重新定义了“AI 浏览器”的概念,旨在为 AI 驱动的自动化任务提供更高效、更智能、更经济的解决方案。以下是我们已经实现的关键创新:

突破高并发瓶颈:

  • 云端弹性扩展: Scrapeless 凭借创新的云端架构,实现了从 50 个会话到无限并发会话的无缝扩展,大幅提升吞吐量,确保任务的稳定性和效率。即使在高并发场景下,任务也能流畅执行。

类似人类的行为和指纹定制:

  • 全栈人为防护: Scrapeless 深度定制浏览器引擎,模拟真实用户浏览行为,绕过反抓取检测机制。本次升级特别增强了指纹自定义功能,允许开发者微调浏览器指纹属性,包括但不限于 User-Agent、屏幕分辨率等,进一步提升浏览器的隐蔽性和灵活性。

显著降低成本:

  • 无与伦比的成本效率:与其他解决方案相比,Scrapeless 可降低60%-80% 的成本,同时确保与 Playwright 和 Puppeteer 等工具的兼容性,使开发人员能够以更低的成本自动执行大规模任务。

简化的集成和可用性:

  • 兼容性和易用性: Scrapeless 降低了开发门槛,降低了集成复杂性,使开发人员能够快速上手,无需面对复杂的学习过程。凭借直观的 API 和界面,Scrapeless 使浏览器自动化更简单、更高效。

虽然我们已经取得了重大进展,但 Scrapeless 仍在不断发展。未来版本将包含更多智能功能,例如:

  • 更精确的指纹欺骗和行为模拟;

  • 会话重放调试和扩展支持;

  • SDK和API支持;

  • 与BrowserUse框架深度集成,提供强大的LLM爬取能力、全站提取以及深度研究能力,进一步提升自动化数据抓取和深度研究的效率和准确性。

Scrapeless Scraping Browser 作为“AI 浏览器”,不仅解决了当前的关键问题,还在持续改进,以应对未来的挑战。我们诚邀开发者和团队加入我们的创新之旅,分享您的需求和建议,共同推动浏览器自动化技术迈向更智能、更高效的新时代。

关于 Scrapeless

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值