python - pychrome 页面抓取测试

python - pychrome 页面抓取测试

Max.Bai

2019.06

 

记录一下去年做页面抓取的脚本记录。

使用Chrome-headless抓取页面内容,使用python 的pychrome包。

要先开启浏览器

然后通过pychrome调用chrome dev protocol

#! python3
# _*_ coding:utf-8 _*_


__author__ = 'Max.Bai'
__date__ = '2018.06'

import pychrome
import threadpool
import threading
ticket_lock = threading.Lock()
p_lock = threading.Lock()
import time

# start chrome first
# "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --headless --remote-debugging-port=9222 --disable-gpu --remote-debugging-address=0.0.0.0
# google-chrome --no-sandbox --headless --remote-debugging-port=9222 --user-data-dir=/home/tools/chrome/temp/ --remote-debugging-address=0.0.0.0 --disable-gpu

class BrowserManager(object):
    _tab_pool = {}
    _browsers = {}
    
    @staticmethod
    def add_browser(host, port, tab_count=5):
        browser_key = "{}:{}".format(host.lower(), port)
        if browser_key in BrowserManager._browsers:
            br = BrowserManager._browsers[browser_key]
        else:
            browser_url = "http://{}:{}".format(host.lower(), port)
            br = pychrome.Browser(url=browser_url)
            BrowserManager._browsers[browser_key] = br

        tabs = br.list_tab(5)
        if tab_count > len(tabs):
            for i in range(0, (tab_count - len(tabs))):
                br.new_tab()
        br.list_tab(5)
        BrowserManager._tab_pool.update(br
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值