四、一文了解selenium爬取网页信息基本用法

最新推荐文章于 2024-08-13 20:32:54 发布

小树苗m

最新推荐文章于 2024-08-13 20:32:54 发布

阅读量173

点赞数

分类专栏：机器学习文章标签： selenium python

本文链接：https://blog.csdn.net/qq_15060477/article/details/113064133

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

from selenium import webdriver
import time
#browser = webdriver.Chrome('/Users/chenzhenyu/Downloads/chromedriver')
def selenim_ex(browser):
    browser.get("https://www.baidu.com")
    #下面两行用xpath实现
    #browser.find_element_by_xpath('//*[@id="kw"]').send_keys('数据分析')
    #browser.find_element_by_xpath('//*[@id="su"]').click()
    #下面两行用css_selector实现
    browser.find_element_by_css_selector('#kw').send_keys('数据分析')
    browser.find_element_by_css_selector('#su').click()
    time.sleep(3)   #网页跳变时给网页点时间，跳转完成后再提取网页，若直接提取网页则不需要等待
    data = browser.page_source
    print(data)
    browser.quit()
def selenim_ex_no():
    '''若不需要弹出浏览器，前面加入二行'''
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    browser = webdriver.Chrome('/Users/chenzhenyu/Downloads/chromedriver',options=chrome_options)
    #下面开始抓取页面
    browser.get("https://www.baidu.com")
    browser.find_element_by_css_selector('#kw').send_keys('数据分析')
    browser.find_element_by_css_selector('#su').click()
    time.sleep(3) 
    data = browser.page_source
    print(data)
    browser.quit()
selenim_ex_no()