Docker
文章平均质量分 79
亿牛云爬虫专家
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机
这篇文章分享了如何优化Playwright多浏览器实例并发采集的性能问题。作者发现单容器运行20个浏览器实例就会导致CPU满载和内存溢出,通过容器拆分(每个容器仅运行10个实例)、代理分流(为每个实例配置独立代理和UA)和异步分批启动(延迟启动避免瞬时峰值)三大优化措施,最终实现了100个浏览器实例稳定运行8小时以上。优化后启动耗时降低58%,CPU占用减少20%,内存用量下降40%。文章强调性能优化的核心是拆分负载、代理隔离和控制节奏,建议从稳定性而非速度入手,采用分布式容器集群方案实现水平扩展能力。原创 2025-11-13 13:43:30 · 326 阅读 · 0 评论 -
用 Playwright + 容器化做分布式浏览器栈:调度、会话管理与资源回收
本文介绍如何利用Playwright和Docker构建分布式浏览器爬虫系统。针对传统爬虫难以处理JavaScript渲染页面的问题,通过容器化Playwright实例解决资源消耗大、启动慢等问题。系统采用代理IP访问新闻网站(如ZAKER和第一财经),实现高并发抓取。核心包括:1)Docker封装Playwright实例;2)会话管理机制;3)代理集成方案。文章还总结了代理认证失败、页面超时等常见问题的解决方法。该方案将单机工具扩展为稳定的分布式采集系统,显著提升爬虫性能和可靠性。(148字)原创 2025-11-03 14:24:39 · 1124 阅读 · 0 评论 -
云原生信息提取系统:容器化流程与CI_CD集成实践
本文探讨了自动化信息获取工程化面临的挑战与解决方案。传统爬虫脚本存在环境不一致、访问限制、部署繁琐等问题,难以稳定运行。通过构建云原生信息提取系统,结合Scrapy、Docker、代理服务和CI/CD工具链,实现了环境一致性、访问稳定性与自动化部署。系统采用模块化设计,包含请求模拟、代理配置、容器封装等功能,并提供了代码示例。该方案解决了开发与运维脱节问题,实现了从"能运行脚本"到"可维护系统"的转变,为长期稳定的自动化信息获取提供了工程化实践路径。原创 2025-07-09 10:10:58 · 821 阅读 · 0 评论 -
使用RSelenium和Docker Standalone Image进行网页抓取的技术和注意事项
RSelenium作为一个功能强大的R包,通过Selenium WebDriver实现了对浏览器的控制,能够模拟用户的行为,访问和操作网页元素。使用RSelenium和Docker Standalone Image进行网页抓取可以应对复杂的网页情况,如需要登录、动态加载或具有反爬虫机制的网页。然而,需要注意的是,该方法可能存在一些缺点,如速度较慢、资源消耗较大,以及可能遇到技术障碍或法律风险。然而,在使用这种技术之前,我们需要全面评估我们的需求和目标,了解目标网站的规则和限制,并采取适当的措施来优化性能。原创 2023-06-28 15:19:21 · 539 阅读 · 0 评论 -
如何使用nginx作为docker容器中ASP.NET应用的反向代理
ASP.NET是一个Web开发框架,可以让开发者创建动态的Web应用和服务。ASP.NET的一个优点是它可以运行在不同的平台上,比如Windows,Linux和macOS,使用docker容器。一个流行的选择是使用nginx作为ASP.NET应用的反向代理。通过使用nginx作为反向代理,开发者可以提高他们的ASP.NET应用的安全性,性能和可靠性。要使用nginx作为反向代理,开发者需要配置nginx.conf文件,指定运行在docker容器中的ASP.NET应用的位置和端口。原创 2023-03-30 16:50:24 · 277 阅读 · 0 评论 -
Docker中MySQL和WordPress的常见问题及解决方法
Docker使用中常见的两个问题原创 2023-02-15 11:45:50 · 696 阅读 · 0 评论
分享