一. 环境准备:
1.Selenium简介
Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。支持多重操作系统Windows、Linux、IOS、Android等。
如果是在有界面浏览器上操作,那肯定要在有界面的系统上进行了。
以下内容都是在windows上进行的,可以更直观。
2.安装selenium:
pip install selenium
2.安装webdriver:webdriver支持的版本必须与浏览器的版本一致,否则会报错
官网有使用webdriver的优缺点比较,例如firefox通常比ie快,无界面的HtmlUnitDriver通常会比firefox快,但对js的支持并不是那么好。并且不同driver对xpath语法的支持也不一样。
在这里我们使用Chrome。
先查看自己电脑谷歌浏览器的版本:帮助-->关于-->版本
可以看到我的浏览器版本是75.0.3770.100
找到浏览器版本对应的驱动文件chromedrive:https://chromedriver.storage.googleapis.com/index.html
我下载了75.0.3770.90,这版本差别不大,然后选择自己的操作系统,里面没有win64的,所以只能下载32位的,我下载了chromedriver_win32.zip
将下载下来的驱动包解压,解压之后的exe文件放到python安装路径下,再将该文件放置路径添加到Path环境变量
然后通过下面的代码测试是否成功,不报错就是成功了哈
from selenium import webdriver #导入selenium
driver = webdriver.Chrome()
二. Selenium定位方式
- find_element_by_id() 通过元素id定位
- find_element_by_name() 通过元素name定位
- find_element_by_class_name() 通过xpath表达式定位
- find_element_by_tag_name() 通过完整超链接定位
- find_element_by_link_text() 通过部分链接定位
- find_element_by_partial_link_text() 通过标签定位
- find_element_by_xpath() 通过类名进行定位
- find_element_by_css_selector() 通过css选择器进行定位
以上都是定位单个元素,如果定位多个元素的话,element后面加个s就行了,比如find_elements_by_id()
三. 实现
实现自动登录慕课网,因为慕课网没有设置复杂的登录方式,比如知乎淘宝等图形验证方式就要复杂很多,后面会在更新在其他文章。下面这是登录界面。按f12就可以看到源码了。
下面不废话,可以直接上代码,代码里面把各过程详细标注了,很简单。
from selenium import webdriver
import time
base_url="https://www.imooc.com/user/newlogin"
driver = webdriver.Chrome()
driver.get(base_url)
# 账号密码方式登录慕课网
#找出元素有多种方法,自己喜欢怎样用就怎样用
name_input = driver.find_element_by_name('email') # 找到用户名的框框
pass_input = driver.find_element_by_name('password') # 找到输入密码的框框
login_button = driver.find_element_by_xpath('//div[@class="rlf-group clearfix"]/input')# 找到登录按钮
username="12345678900" #这里换成自己的账号
password="******" ##这里换成自己的密码
name_input.clear()
name_input.send_keys(username) # 填写账号
time.sleep(0.2) #休眠一下,模拟人工登录,不然可能被拦截
pass_input.clear()
pass_input.send_keys(password) # 填写密码
time.sleep(0.2)
login_button.click() # 点击登录
time.sleep(0.2)
print( driver.get_cookies()) #打印cookies
time.sleep(2)
print(driver.title) #打印标题
#driver.close() #关闭浏览器
上面展示了账号密码登录方式,那短信验证登录呢,可以实现吗?可以的,直接看下面的代码:
from selenium import webdriver
import time
base_url="https://www.imooc.com/user/newlogin"
driver = webdriver.Chrome()
driver.get(base_url
#前面的内容都跟账号密码登录一样
#观察慕课网登录页面,默认登录方式是账号密码,如果需要短信验证登录,则要点击一下“短信验证登录”按钮
#先找到这个按钮
jump = driver.find_element_by_xpath('//div[@class="pop-login-sns clearfix"]/span')
#然后点击跳转到短信验证登录界面
jump.click()
#找到输入手机号的框框
name_input = driver.find_element_by_name('phone')
#找到发送验证码的按钮
Verity_send = driver.find_element_by_class_name('js-signin-send')
#找到输入验证码的框框
phoneVerity = driver.find_element_by_id('js-phoneVerity')
#找到登录按钮
login_button = driver.find_element_by_xpath('//div[@class="rlf-group clearfix"]/input')
#改为自己的电话号码
username="11111111111"
name_input.clear()
name_input.send_keys(username) # 填写用户名
time.sleep(0.2)
Verity_send.click() # 点击获取验证码
time.sleep(2)
verity=input("输入验证码")
phoneVerity.clear()
phoneVerity.send_keys(verity) # 填写密码
time.sleep(0.2)
login_button.click() # 点击登录
time.sleep(0.2)
print( driver.get_cookies())
time.sleep(2)
print(driver.title)
这里需要在接收到验证码之后将验证码输入到编辑器的输入框,不是输入模拟网站的输入框
好啦,我们已经成功登录了。
第一次尝试的baby是不是觉得很神奇,继续加油学习吧。
我是一个做大数据工作的平时比较懒的程序员,有一些比较有意思的爬虫想法,可是造诣不深,想多写写文章来激励自己,并总结一些学习经验,能为需要的人提供点帮助。