python+chrome+docker运行环境配置

最新推荐文章于 2024-04-15 09:31:00 发布

wangyhwyh753

最新推荐文章于 2024-04-15 09:31:00 发布

阅读量579

点赞数

分类专栏： python 文章标签： docker python3 chrome

本文链接：https://blog.csdn.net/wangyhwyh753/article/details/100998254

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

正常爬取网页不需要有浏览器支持，只要python配置相应的包就行。但是如果想要进行模拟登陆等功能，就需要有浏览器支持了。我采用的是selenium+bs4的模块，浏览器驱动采用的是chrome的webdriver，这个在selenium中有。

from selenium import webdriver
import time
from bs4 import BeautifulSoup

主要爬取过程很简单，这里就是列出几个关键。

首先是配置驱动浏览器

    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    #chrome_options.add_argument(r"user-data-dir=/usr/local")
    #chrome_options.add_argument("window-size=1024,768")
    # 添加沙盒模式
    chrome_options.add_argument("--no-sandbox")
    browser = webdriver.Chrome(chrome_options=chrome_options)

    #这里的driver就是上面配置好的browser浏览器对象，url为自己想访问的网址，这里指向登陆界面，下面是模仿登陆过程。
    driver.get(url)
    print(driver.current_url)
    
    # 进入登陆页面，输入账户名和密码，find_element_by_xpath用来定位标签，send_keys用来向标签输入内容，click()是点击动作，这是登陆模仿动作的关键步骤。网页内部也是重复这个工程
    driver.find_element_by_xpath('/html/body/div/div/form/div[3]/div[2]/input').send_keys(account)
    driver.find_element_by_xpath('/html/body/div/div/form/div[4]/div[2]/input').send_keys(password)
    # 点击登陆
    driver.find_element_by_xpath('/html/body/div/div/form/div[5]/button').click()
    #这两步是为了获取cookies，但是我没用到。
    driver.refresh()
    cookies = driver.get_cookies()
    # 等待加载登陆进入管理界面，这个一般都需要等待页面渲染，否则得不到想要的页面，这里是个坑，注意时间掌控，一半1s足以，这里为了保险起见，弄了各5秒。
    time.sleep(5)
    #这里是为了查看当前浏览器的网页
    res = driver.page_source
    print(res)
    # 点击节点管理进入节点页面
    driver.find_element_by_xpath("//body//h3/a").click()

爬取网页很简单就是配置驱动wedriver的docker环境很麻烦。主要是不知道怎么在docker中安装浏览器，参考的几个都是安装失败。结合同事的参考，终于把这个给搞定了，这里mark一下。

wangyhwyh753

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python+chrome+docker运行环境配置

正常爬取网页不需要有浏览器支持，只要python配置相应的包就行。但是如果想要进行模拟登陆等功能，就需要有浏览器支持了。我采用的是selenium+bs4的模块，浏览器驱动采用的是chrome的webdriver，这个在selenium中有。from selenium import webdriverimport timefrom bs4 import BeautifulSoup...
复制链接

扫一扫