python自动化爬虫_python爬虫笔记----4.Selenium库（自动化库）

最新推荐文章于 2024-01-14 17:14:55 发布

weixin_39621075

最新推荐文章于 2024-01-14 17:14:55 发布

阅读量214

点赞数

文章标签： python自动化爬虫

4.Selenium库

(自动化测试工具，支持多种浏览器，爬虫主要解决js渲染的问题)

pip install selenium

基本使用

from selenium importwebdriverfrom selenium.webdriver.common.by importByfrom selenium.webdriver.common.keys importKeysfrom selenium.webdriver.support importexpected_conditions as ECfrom selenium.webdriver.support.wait importWebDriverWait

browser=webdriver.Chrome()try:

browser.get('https://www.baidu.com')

input= browser.find_element_by_id('kw')#通过id=kw查找

input.send_keys('Python')#发送键

input.send_keys(Keys.ENTER)#敲入回车

wait = WebDriverWait(browser, 10)#等待元素加载出来

wait.until(EC.presence_of_element_located((By.ID, 'content_left')))print(browser.current_url)print(browser.get_cookies())print(browser.page_source)finally:

browser.close()

声明浏览器对象

#声明浏览器对象(其他可查看官方文档)

from selenium importwebdriver

browser= webdriver.Chrome()#生成Chrome浏览器对象

browser =webdriver.Firefox()

browser=webdriver.Edge()

browser=webdriver.PhantomJS()

browser= webdriver.Safari()

访问页面

#访问页面

from selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.taobao.com')print(browser.page_source)#获取页面代码

browser.close()#关闭页面

查找元素

查找单个元素

#查找单个元素

from selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first= browser.find_element_by_id('q')#通过id

input_second = browser.find_element_by_css_selector('#q')#通过css选择器

input_third = browser.find_element_by_xpath('//*[@id="q"]')#通过xpath

print(input_first, input_second, input_third)

browser.close()

其他查找方式

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

也可以使用通用方法

input_first = browser.find_element(By.ID, 'q')

查找多个元素

#查找多个元素

lis = browser.find_elements_by_css_selector('.service-bd li')#其他也类似单个元素的查找方法，find_element_*变为find_elements_*

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')#也可以使用这种通用的

元素交互操作

(对获取的元素调用交互方法)

browser =webdriver.Chrome()

browser.get('https://www.taobao.com')

input= browser.find_element_by_id('q')#定位输入框(id='q')

input.send_keys('iPhone')#在搜索框输入iPhone

time.sleep(1)

input.clear()#清除搜索框

input.send_keys('iPad')#在搜索框输入iPad

button = browser.find_element_by_class_name('btn-search')#定位搜索按钮

button.click()#点击搜索按钮

(报错可能是chrome版本和chromedriver版本不匹配)

交互动作

将动作附加到动作链中串行执行

from selenium importwebdriverfrom selenium.webdriver importActionChains

browser=webdriver.Chrome()

url= 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'browser.get(url)

browser.switch_to.frame('iframeResult')#定位frame标签

source = browser.find_element_by_css_selector('#draggable')#定位到frame标签里的draggable

target = browser.find_element_by_css_selector('#droppable')

actions= ActionChains(browser)#动作链对象

actions.drag_and_drop(source, target)#把source拖拽到target上面

actions.perform()#执行动作

执行JavaScript

#进度条的拖拽

from selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')#打开网页

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')#将网页下拉到最下端

browser.execute_script('alert("To Bottom")')#弹出alert提示框

获取元素信息

获取属性值，文本值，id，位置，标签名，大小

from selenium importwebdriverfrom selenium.webdriver importActionChains

browser=webdriver.Chrome()

url= 'https://www.zhihu.com/explore'browser.get(url)

logo= browser.find_element_by_id('zh-top-link-logo')

input= browser.find_element_by_class_name('zu-top-add-question')print(logo.get_attribute('class'))#获取属性值

print(logo.text)#获取文本值

print(logo.id)#获取id

print(logo.location)#获取位置

print(logo.tag_name)#获取标签名

print(logo.size)#获取大小

Frame

from selenium importwebdriverfrom selenium.common.exceptions importNoSuchElementException

browser=webdriver.Chrome()

url= 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'browser.get(url)

browser.switch_to.frame('iframeResult')#定位到frame

source = browser.find_element_by_css_selector('#draggable')#定位到frame里的选择器

try:

logo= browser.find_element_by_class_name('logo')exceptNoSuchElementException:print('NO LOGO')

browser.switch_to.parent_frame()#切换到父frame

logo = browser.find_element_by_class_name('logo')print(logo.text)

等待

隐式等待(当使用了隐式等待执行测试的时候，如果 WebDriver没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常, 换句话说，当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间再查找 DOM，默认的时间是0)(没有太大必要)

from selenium importwebdriver

browser=webdriver.Chrome()

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input= browser.find_element_by_class_name('zu-top-add-question')#如果元素加载出来则不会等待，没有加载出来则等待10秒

print(input)

显式等待

(如果没有加载出来则一直等待)

from selenium importwebdriverfrom selenium.webdriver.common.by importByfrom selenium.webdriver.support.ui importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC

browser=webdriver.Chrome()

browser.get('https://www.taobao.com/')

wait= WebDriverWait(browser, 10)#传入最长等待时间

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))#传入等待条件(是否出现)(获取输入框)

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))#(是否可点击)(获取按钮)

print(input, button)

title_is 标题是某内容

title_contains 标题包含某内容

presence_of_element_located 元素加载出，传入定位元组，如(By.ID, 'p')

visibility_of_element_located 元素可见，传入定位元组

visibility_of 可见，传入元素对象

presence_of_all_elements_located 所有元素加载出

text_to_be_present_in_element 某个元素文本包含某文字

text_to_be_present_in_element_value 某个元素值包含某文字

frame_to_be_available_and_switch_to_it frame加载并切换

invisibility_of_element_located 元素不可见

element_to_be_clickable 元素可点击

staleness_of 判断一个元素是否仍在DOM，可判断页面是否已经刷新

element_to_be_selected 元素可选择，传元素对象

element_located_to_be_selected 元素可选择，传入定位元组

element_selection_state_to_be 传入元素对象以及状态，相等返回True，否则返回False

element_located_selection_state_to_be 传入定位元组以及状态，相等返回True，否则返回False

alert_is_present 是否出现Alert

前进后退

importtimefrom selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.baidu.com/')#打开百度

browser.get('https://www.taobao.com/')#打开淘宝

browser.back()#返回上一步(返回到百度)

time.sleep(1)

browser.forward()#前进(返回淘宝)

browser.close()

from selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')print(browser.get_cookies())#打印cookie

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})#添加cookie

print(browser.get_cookies())#打印cookie

browser.delete_all_cookies()#清空cookie

print(browser.get_cookies())#打印

选项卡管理

importtimefrom selenium importwebdriver

browser=webdriver.Chrome()

browser.get('https://www.baidu.com')#打开百度

browser.execute_script('window.open()')#新增选项卡

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])#选择到第二个选项卡

browser.get('https://www.taobao.com')#打开淘宝

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])#选择到第一个选项卡

browser.get('http://www.hao123.com')#打开网页

异常处理

from selenium importwebdriverfrom selenium.common.exceptions importTimeoutException, NoSuchElementException

browser=webdriver.Chrome()try:

browser.get('https://www.baidu.com')exceptTimeoutException:print('Time Out')try:

browser.find_element_by_id('hello')exceptNoSuchElementException:print('No Element')finally:

browser.close()

weixin_39621075

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自动化爬虫_python爬虫笔记----4.Selenium库（自动化库）

4.Selenium库(自动化测试工具，支持多种浏览器，爬虫主要解决js渲染的问题)pip install selenium基本使用from selenium importwebdriverfrom selenium.webdriver.common.by importByfrom selenium.webdriver.common.keys importKeysfrom selenium.web...
复制链接

扫一扫