python - pychrome 页面抓取测试

最新推荐文章于 2024-08-21 08:26:08 发布

max229max

最新推荐文章于 2024-08-21 08:26:08 发布

阅读量3.9k

点赞数

分类专栏： Python 文章标签： pychrome chrome-headless

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/max229max/article/details/91972429

版权

本文介绍了使用Python的PyChrome库配合Chrome无头模式(headless)进行网页内容抓取的测试过程。作者详细记录了如何启动浏览器并利用Chrome Dev Protocol进行操作。

摘要由CSDN通过智能技术生成

python - pychrome 页面抓取测试

Max.Bai

2019.06

记录一下去年做页面抓取的脚本记录。

使用Chrome-headless抓取页面内容，使用python 的pychrome包。

要先开启浏览器

然后通过pychrome调用chrome dev protocol

#! python3
# _*_ coding:utf-8 _*_


__author__ = 'Max.Bai'
__date__ = '2018.06'

import pychrome
import threadpool
import threading
ticket_lock = threading.Lock()
p_lock = threading.Lock()
import time

# start chrome first
# "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --remote-debugging-port=9222 --disable-gpu --remote-debugging-address=0.0.0.0
# google-chrome --no-sandbox --headless --remote-debugging-port=9222 --user-data-dir=/home/tools/chrome/temp/ --remote-debugging-address=0.0.0.0 --disable-gpu

class BrowserManager(object):
    _tab_pool = {}
    _browsers = {}
    
    @staticmethod
    def add_browser(host, port, tab_count=5):
        browser_key = "{}:{}".format(host.lower(), port)
        if browser_key in BrowserManager._browsers:
            br = BrowserManager._browsers[browser_key]
        else:
            browser_url = "http://{}:{}".format(host.lower(), port)
            br = pychrome.Browser(url=browser_url)
            BrowserManager._browsers[browser_key] = br

        tabs = br.list_tab(5)
        if tab_count > len(tabs):
            for i in range(0, (tab_count - len(tabs))):
                br.new_tab()
        br.list_tab(5)
        BrowserManager._tab_pool.update(br

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

max229max CSDN认证博客专家 CSDN认证企业博客

码龄17年

121: 原创

6万+: 周排名

168万+: 总排名

41万+: 访问

: 等级

3665: 积分

86: 粉丝

98: 获赞

150: 评论

390: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python - AES SHA1PRNG 加密解密总结
jinghao_110: AES_Cryptor = AES_Crypt(AES_Crypt.get_sha1prng_key(key), padding=AES_Crypt.PADDING_PKCS5) print("decrypt content", AES_Cryptor.ECB_decrypt_from_base64(encrypt_res)) 非常棒的文章，一直被Java 中的 AES/ECB/PKCS5Padding SHA1PRNG 加密解密问题困扰，在python下一直解不出来，用博主这个文章开箱即用，太棒了。
python - Flask 部署gunicorn，supervisor部署日志问题
namelijink: 不知道是不是flask版本的问题， if __name__ != "__main__": gunicorn_logger = logging.getLogger("gunicorn.error") # logger对象，gunicorn.error记录器 app.logger.handlers = gunicorn_logger.handlers # 将Flask应用程序记录器的处理程序设置为Gunicorn记录器 app.logger.setLevel(gunicorn_logger.level) # 将-log-level传递给gunicorn，成为其适当处理程序的日志级别如下写法才能正常运行.flask 2.3.2
Python - AES SHA1PRNG 加密解密总结
无水先生: keygen.init(256)是
python3 - AES 加密实现java中SHA1PRNG 算法
薄年阿豪: 有没有python2对应的代码，这套代码对于python2来说加密的密文和python3对应的密文不一样
Python - Requests 模拟 DWR框架的请求
zkkkkkkkkkkkkk: 请问如果不获取scriptSessionId，也就是每次请求scriptSessionId都置空，会不会对接口的返回造成影响。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。