Selenium获取网页数据

最新推荐文章于 2024-07-21 10:00:00 发布

普天&同庆

最新推荐文章于 2024-07-21 10:00:00 发布

阅读量8k

点赞数

分类专栏：算法文章标签： python selenium 爬虫 webdriver chromedriver

本文链接：https://blog.csdn.net/lonewolf1992/article/details/90263729

版权

算法专栏收录该内容

7 篇文章 0 订阅

订阅专栏

# coding:utf-8

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
import os


def get_url_html(url):
    # 获取执行驱动路径, 驱动放在项目根目录下, 驱动下载地址:https://chromedriver.storage.googleapis.com/index.html
    driver_path = os.path.dirname(os.path.abspath(__file__)) + os.sep + "chromedriver"

    # 添加选项
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-dev-shm-usage")
    chrome_options.add_argument("--no-sandbox")
    
    # 启动webdriver
    session = webdriver.Chrome(executable_path=driver_path, chrome_options=chrome_options)
    
    # 访问url
    session.get(url)
    
    # 访问url后睡3秒,视情况而定
    time.sleep(3)
    
    # 获取网页源代码
    content = session.page_source
    
    # 退出webdriver, 否则会在后台留下chromedriver驱动进程
    session.quit()
    return content