selenium入门

一.引导

selenium(浏览器自动化测试框架)本身提供了许多元素定位的方法,find_element_by_id()这些方法底层是用python语言实现的,提取速度上会慢一些。通常情况下,使用phantomjs/selenium也只是获取js渲染后的网页源代码,而网页中数据的提取,还可以使用xpath, css, re, bs4, etree, pyquery等。

网页中通过js渲染的数据,爬虫的解决办法:
1. 去静态源码中查找<script>var infolist = {'name':'123', }</script>(即script标签的内容)
2. 抓包或者网络请求中,查看是否有类似与json的get请求,直接请求这个json的API拿到数据
3. 使用phantomjs/selenium进行访问动态页面,而静态页面仍然使用requests进行获取
别忘了在使用selenium之前要装上相应的浏览器驱动呦!
1.geckodriver.exe: 是selenium用来打开火狐浏览器的驱动,需要将它和python.exe放在一起。
2.chromedriver.exe:是selenium用来打开谷歌浏览器的驱动,需要将它和python.exe放在一起。
注意!!!
不兼容会出现启动错误
1. geckodriver.exe的版本必须和火狐浏览器的版本兼容;
2. geckodriver.exe的版本必须和当前操作系统兼容;

二.简单举例

利用selenium实现在百度中搜索selenium,代码如下:

  1. import time
  2. from selenium import webdriver
  3. # 创建一个火狐浏览器对象,会打开一个浏览器窗口
  4. driver = webdriver.Firefox()
  5. # 创建一个谷歌浏览器对象,会打开一个浏览器窗口
  6. # driver = webdriver.Chrome()
  7. # 打开一个网页,如百度
  8. driver.get('https://www.baidu.com')
  9. # 通过id定位到输入框
  10. keyword = driver.find_element_by_id('kw')
  11. print(type(keyword))
  12. # <class 'selenium.webdriver.firefox.webelement.FirefoxWebElement'>

  13. # # 在向输入框中输入内容之前,可以先将之前的旧内容清空
  14. keyword.clear()

  15. # # 向输入框中输入内容send_keys
  16. keyword.send_keys('selenium')

  17. # # 通过class定位到搜索按钮
  18. search_btn = driver.find_element_by_class_name( 's_btn')

  19. # # 点击search_btn
  20. search_btn.click()
  21. time.sleep( 3)
  22. driver.find_element_by_css_selector( '.result > h3 > a').click()
  23. time.sleep( 3)
  24. # 休眠2秒,将浏览器driver对象退出
  25. driver.close()






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值