python常用api_python selenium API 常用方法

最新推荐文章于 2022-12-10 18:23:54 发布

weixin_39610956

最新推荐文章于 2022-12-10 18:23:54 发布

阅读量70

点赞数

文章标签： python常用api

下载相应的浏览器驱动, Firefox 是默认的

本文以 chrome 为主，放在scripts目录下

ChromeDriver 官方下载地址 : 所有版本的 ChromeDriver

文档参考

一份简单的测试 demo

关于 360 haosou.com 的测试 :

1 #coding=utf-8

2 from selenium import webdriver

3 import os

4 import time

5 # set little time stop and big time stop for viewing changes

6 little_time_stop = 1

7 big_time_stop = 2

8 # 默认广告条数

9 ads_num_require = 8

10 # 请求连接

11 req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"

12 # 打开浏览器

14 browser = webdriver.Chrome()

15 # 开始请求

16 17 browser.get(req_url)

18 # 获取所有的广告

20 all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')

21 # 当前广告条数

22 ads_num_current = len(all_ads_li)

23 print "Has been got %d ads" %(ads_num_current)

24 # 如果广告条数与默认不符

25 if ads_num_current < ads_num_require:

26 print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require)

27 # exit()

28 # 获取顶部连接

29 i = 0

30 for ads_li in all_ads_li:

31 time.sleep(big_time_stop)

32 i = i+1

33 print "ads %d :" %i

34 try:

35 main = ads_li.find_element_by_css_selector('h3 a')

36 except:

37 print "\tError: ads %d cann't find" %(i)

38 else:

39 print "\tReady: visit ads %d" %(i)

40 main.click()

41 print "\tSucess: visit ads %d" %(i)

42 time.sleep(little_time_stop)

43 try:

44 img_link = ads_li.find_element_by_class_name('e_biyi_img')

45 except:

46 print "\tError : no img in ads %d " %(i)

47 else:

48 print "\tReady : visit img_link %d" %(i)

49 img_link.click()

50 print "\tSuccess : visit img_link %d" %(i)

51 time.sleep(little_time_stop)

52 try:

53 child_div = ads_li.find_element_by_class_name('e_biyi_childLink');

54 except:

55 print "\tError : no child link in ads %d" %(i)

56 else:

57 try:

58 child_links = child_div.find_elements_by_css_selector('a')

59 except:

60 print "\tError : find child_links error"

61 else:

62 num_links = len(child_links)

63 print "\tSuccess : there are %d child_links" %(num_links)

64 j = 0

65 for child_a in child_links:

66 j = j + 1

67 print "\t\tReady : visit child link %d in ads %d" %(j, i)

68 child_a.click()

69 print "\t\tSuccess : visit child link %d in ads %d" %(j, i)

70 time.sleep(little_time_stop)

71 print "End and thanks for your using!"

72 # 下面代码选择取消注释

73 # 延时

74 # time.sleep(5)

75 # 关闭当前窗口

76 # browser.close()

77 # 关闭所有已经打开的窗口

78 # browser.quit()

定位操作

以下是所有定位操作的 API :

返回一个匹配元素, 即一个 WebElement 元素

find_element_by_id()

find_element_by_name()

find_element_by_class_name()

find_element_by_tag_name()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_xpath()

find_element_by_css_selector()

返回一个列表, 包含所有匹配的元素，即一个 WebElement 列表

find_elements_by_id()

find_elements_by_name()

find_elements_by_class_name()

find_elements_by_tag_name()

find_elements_by_link_text()

find_elements_by_partial_link_text()

find_elements_by_xpath()

find_elements_by_css_selector()

使用的时候需注意下面几点 :

python selenium 提供了两种对象 : WebDriver 和 WebElement

这两种对象都可以使用这些 API

这些 API 一旦执行失败(即查找不到), 就会抛出异常

因此必须使用 try: .. except: ... 机制避免错误的行为影响程序继续进行

WebDriver 调用以上 API 进行全局定位

WebElement 调用以上 API 可以进行层级定位, 即查找当前元素的子元素

WebDriver 的使用

开始的时候必须要有初始化一个 WebDriver 实例, 即下面的 browser 用来对浏览器进行控制以及页面的访问

# 请求连接

req_url ="http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"

# 打开浏览器

browser =webdriver.Chrome()

# 开始请求

browser.get(req_url)

接着, 就可以使用异常 API 进行当前页面的全局查找, 比如 :

# 获取所有的广告

all_ads_li =browser.find_elements_by_css_selector('#e_idea_pp li')

WebElement 的使用

使用 browser.find_element_by_xx() 得到的是一个 WebElement 实例

使用获得的实例调用上面的 API 即可进行层级查找

使用 browser.find_elements_by_xx() 得到的是一个元素是 WebElement 实例的 list

通过对 list 的遍历, 即可对各个实例进行相应的操作

WebDriver 的一些常用操作

browser.curren_url : 获取当前加载页面的 URL

browser.close() : 关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭

browser.quit() : 关闭所有窗口并停止 ChromeDriver 的执行

browser.add_cookie(cookie_dict) : 为当前会话添加 cookie

browser.get_cookie(name) : 得到执行 cookie

browser.get_cookies() : 得到所有的 cookie

driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})

browser.delete_all_cookies() : 删除当前会话的所有cookie

browser.delete_cookie(name) : 删除指定 cookie

browser.back() : 相当于浏览器的后退历史记录

browser.forward() : 相当于浏览器的前进历史记录

browser.execute_script(script, *args) : 同步执行 js 脚本

browser.execute_async_script(script, *args) : 异步执行 js 脚本

browser.get(url) : 在当前窗口加载 url

browser.refresh() : 刷新当前页面

browser.current_window_handle : 当前窗口的 handle，相当于一个指针一样的东西, 用来指向当前窗口

browser.window_handles : 当前浏览器中的已经打开的所有窗口, 是一个 list

browser.switch_to_window(window_handle) : 切换 window_handle 指向的窗口

browser.title : 当前页面的 title

browser.name : 当前浏览器的名字

WebElement 的一些常用操作

webEle.clear() : 清楚元素的内容, 假如这个元素是一个文本元素

webEle.click() : 点击当前元素

webEle,is_displayed() : 当前元素是否可见

webEle.is_enabled() : 当前元素是否禁止, 比如经常会禁用一些元素的点击

webEle.is_selected() : 当前元素是否选中, 文本输入框的内容

webEle.send_keys(*value) : 向当前元素模拟键盘事件

webEle.submit() : 提交表单

webEle.tag_name : 当前元素的标签名

webEle.text : 当前元素的内容

webEle.get_attribute(name) : 获取当前元素执行属性的值

weixin_39610956

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python常用api_python selenium API 常用方法

下载相应的浏览器驱动, Firefox 是默认的本文以 chrome 为主，放在scripts目录下ChromeDriver 官方下载地址 : 所有版本的 ChromeDriver文档参考一份简单的测试 demo关于 360 haosou.com 的测试 :1 #coding=utf-82 from selenium import webdriver3 import os4 import tim...
复制链接

扫一扫