Python pyppeteer 与playwright 模拟浏览器请求部署服务器遇到的坑

桐桐桐

已于 2024-10-08 16:10:59 修改

阅读量1.2k

点赞数 16

分类专栏： python 文章标签：服务器 Pyppeteer Playwright python

于 2024-09-25 15:28:36 首次发布

本文链接：https://blog.csdn.net/qq_31679735/article/details/142524617

版权

python 专栏收录该内容

3 篇文章

订阅专栏

在服务器部署遇到的问题

在服务器上部署后如果遇到代码执行卡主问题通过debug 显示代码到 browser = await launch(headless=False)卡主了 ,由于服务器没有浏览器的图形化环境,所以只能将修改为无头浏览器的模式启动 browser = await launch(headless=True)

async def crawling_html(language, redis):
    # 启动浏览器
    browser = await launch(headless=True)
    try:
        logger.info(f"Crawling HTML for language {language}...")
        page = await browser.newPage()
        # 设置浏览器的语言
        await page.setExtraHTTPHeaders({
            'Accept-Language': language
        })
        # 打开 WhatsApp Web
        await page.goto('https://web.whatsapp.com/')
        await page.setViewport({'width': 1920, 'height': 960})
        # 获取页面的 HTML 内容
        html = await page.content()
    except Exception as e:
        logger.exception(e)
    finally:
        await browser.close()

使用了无头浏览器的模式程序可以运行下去 ,但是在执行到 await page.goto('https://web.whatsapp.com/') 时候出现问题由于使用了无头浏览器模式可能被检测到了是自动化工具访问, 访问超时不响应 , 然后通过修改 User-Agent，让 Pyppeteer 模拟成真实浏览器，避免被网站检测到使用自动化工具

由于一开始使用的User-Agent参数与实际的参数设置有差异 ,所以请求虽然没有卡住但是请求拿到的结果页面不是正常的页面,提示出现了错误,或者拿到的页面时提示浏览器版本过低,或者一直在加载出不来页面,乱码,总之不能正确地处理。

分析是被检测到为异常访问,这里我们可以查看服务器安装的路径查到安装路径后配置上启动浏览器的路径,并且查看当前浏览器版本google-chrome --version ,配置正确的 User-Agent防止被检测到为自动化访问

手动配置浏览器的位置

browser = await launch({
    'headless': True,
    'executablePath': '/path/to/your/chrome'  # 替换为你本地 Chrome 或 Chromium 的安装路径
})

沙盒模式解决可能导致卡主问题可能有些权限不足问题

为什么在服务器上要禁用沙盒模式？

在服务器环境中，启用沙盒模式有时会导致权限或性能问题，因此禁用沙盒模式可以避免这些问题。

权限问题

无头浏览器在服务器上运行时可能遇到权限不足的问题。在某些环境中，特别是 Docker 容器、虚拟机或无特权的 Linux 环境中，沙盒模式可能会因为权限问题而导致 Chromium 或 Chrome 无法正常启动。
解决权限冲突：沙盒模式要求浏览器进程有一定的权限（例如能够修改进程的用户 ID），在一些受限环境（如 Docker）中无法提供这些权限。因此，禁用沙盒可以绕过这些权限问题。

性能问题

在某些场景下，沙盒模式可能会增加系统的负载或降低性能，尤其是在资源有限的服务器或虚拟环境中。禁用沙盒模式可以提高性能，减少系统开销。

避免浏览器崩溃

在某些环境中，启用沙盒模式可能导致浏览器崩溃或卡死。禁用沙盒模式可以避免浏览器因为沙盒限制而启动失败或崩溃。

什么时候禁用沙盒模式？

在无图形界面的服务器、Docker 容器、虚拟机、CI/CD 系统中，常常需要禁用沙盒模式，尤其是当你运行无头浏览器时（如使用 headless: true 模式的 Pyppeteer、Playwright 或 Selenium）。
在开发、自动化测试或爬虫中，如果遇到浏览器启动失败、权限不足等问题，禁用沙盒模式可能是解决方案之一。

禁用沙盒模式示例代码:

1. Pyppeteer

browser = await launch({
    'headless': True,
    'args': ['--no-sandbox', '--disable-setuid-sandbox']
})

2. Playwright

async with async_playwright() as p:
    browser = await p.chromium.launch(
        headless=True,
        args=['--no-sandbox', '--disable-setuid-sandbox']
    )

所以，最终代码:

async def crawling_html(language, redis):
    logger.info(f'Start crawling HTML for language {language}...')
    is_prod = os.getenv('PROJECT_ENV') == 'prod'
    logger.info(f'is_prod: {is_prod}')
    # 启动浏览器
    browser = await launch({
        'headless': True,  # 无头模式，不需要显示界面
        'executablePath': '/usr/bin/google-chrome' if is_prod else 'C:/Program Files/Google/Chrome/Application/chrome.exe', # 配置浏览器位置不适用默认安装的浏览器防止安装问题
        'args': ['--no-sandbox', '--disable-setuid-sandbox', '--disable-features=IsolateOrigins,site-per-process']
        # 禁用沙盒模式，避免权限问题
    })
    version_info = await browser.version()
    try:
        page = await browser.newPage()
        #删除之前的缓存
        await page.deleteCookie(*await page.cookies())
        #模拟用户响应
        await page.mouse.move(100, 100)
        await page.mouse.click(100, 100) 
        # 打开 WhatsApp Web，并等待页面加载完成
        await page.setExtraHTTPHeaders({'Accept-Language': language})
        #模拟UserAgent
        await page.setUserAgent(
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36")
        #配置超时时间
        await page.goto('https://web.whatsapp.com/', timeout=120000)
        await page.setViewport({'width': 1920, 'height': 960})
        # 获取页面的 HTML 内容
        html = await page.content()
        # 从html中解析出版本号
        version = ''
        $...一些其他的操作...
    except Exception as e:
        logger.exception(e)
    finally:
        await browser.close()

另外一种可能解决问题的方案 Xvfb（虚拟显示）不推荐耗费资源无头模式后台运行更高效未采用

如果你需要 headless=False 但服务器没有显示环境，你可以使用 Xvfb（虚拟显示帧缓冲）模拟图形环境。安装和使用 Xvfb：

安装 Xvfb：

sudo apt-get install -y xvfb

在 Xvfb 中运行你的脚本：

xvfb-run python your_script.py

模拟浏览器的请求框架pyppeteer 与playwright 对比

Pyppeteer 和 Playwright 都是用于控制无头浏览器的库，但它们在设计和功能上有一些关键区别：

1. 基础和支持

Pyppeteer：
- 是 Puppeteer Python 的端口，主要针对 Chromium。
- 只支持 Chrome/Chromium，缺乏对其他浏览器的支持。
Playwright：
- 由 Microsoft 开发，支持多种浏览器（Chromium、Firefox 和 WebKit）。
- 更加现代化，设计用于跨浏览器测试和自动化。