Python 爬虫Selenium库的使用 实现自动登录慕课网

一. 环境准备:

1.Selenium简介

Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。支持多重操作系统Windows、Linux、IOS、Android等。

如果是在有界面浏览器上操作,那肯定要在有界面的系统上进行了。

以下内容都是在windows上进行的,可以更直观。

2.安装selenium:

pip install selenium

2.安装webdriver:webdriver支持的版本必须与浏览器的版本一致,否则会报错

官网有使用webdriver的优缺点比较,例如firefox通常比ie快,无界面的HtmlUnitDriver通常会比firefox快,但对js的支持并不是那么好。并且不同driver对xpath语法的支持也不一样。

在这里我们使用Chrome。

先查看自己电脑谷歌浏览器的版本:帮助-->关于-->版本

 

可以看到我的浏览器版本是75.0.3770.100

找到浏览器版本对应的驱动文件chromedrive:https://chromedriver.storage.googleapis.com/index.html

我下载了75.0.3770.90,这版本差别不大,然后选择自己的操作系统,里面没有win64的,所以只能下载32位的,我下载了chromedriver_win32.zip

将下载下来的驱动包解压,解压之后的exe文件放到python安装路径下,再将该文件放置路径添加到Path环境变量

然后通过下面的代码测试是否成功,不报错就是成功了哈

from selenium import webdriver  #导入selenium 

driver = webdriver.Chrome()

二. Selenium定位方式

  • find_element_by_id() 通过元素id定位
  • find_element_by_name() 通过元素name定位
  • find_element_by_class_name() 通过xpath表达式定位
  • find_element_by_tag_name() 通过完整超链接定位
  • find_element_by_link_text() 通过部分链接定位
  • find_element_by_partial_link_text() 通过标签定位
  • find_element_by_xpath() 通过类名进行定位
  • find_element_by_css_selector() 通过css选择器进行定位

以上都是定位单个元素,如果定位多个元素的话,element后面加个s就行了,比如find_elements_by_id() 

三. 实现

实现自动登录慕课网,因为慕课网没有设置复杂的登录方式,比如知乎淘宝等图形验证方式就要复杂很多,后面会在更新在其他文章。下面这是登录界面。按f12就可以看到源码了。

下面不废话,可以直接上代码,代码里面把各过程详细标注了,很简单。 

from selenium import webdriver
import time

base_url="https://www.imooc.com/user/newlogin"
driver = webdriver.Chrome()
driver.get(base_url)

# 账号密码方式登录慕课网
#找出元素有多种方法,自己喜欢怎样用就怎样用
name_input = driver.find_element_by_name('email')  # 找到用户名的框框
pass_input = driver.find_element_by_name('password')  # 找到输入密码的框框
login_button = driver.find_element_by_xpath('//div[@class="rlf-group clearfix"]/input')# 找到登录按钮

username="12345678900"  #这里换成自己的账号
password="******"   ##这里换成自己的密码

name_input.clear()
name_input.send_keys(username)  # 填写账号
time.sleep(0.2)  #休眠一下,模拟人工登录,不然可能被拦截
pass_input.clear()
pass_input.send_keys(password)  # 填写密码
time.sleep(0.2)
login_button.click()            # 点击登录
time.sleep(0.2)

print( driver.get_cookies())    #打印cookies
time.sleep(2)
print(driver.title)   #打印标题
#driver.close()   #关闭浏览器

 上面展示了账号密码登录方式,那短信验证登录呢,可以实现吗?可以的,直接看下面的代码:

from selenium import webdriver
import time

base_url="https://www.imooc.com/user/newlogin"
driver = webdriver.Chrome()
driver.get(base_url
#前面的内容都跟账号密码登录一样

#观察慕课网登录页面,默认登录方式是账号密码,如果需要短信验证登录,则要点击一下“短信验证登录”按钮
#先找到这个按钮
jump = driver.find_element_by_xpath('//div[@class="pop-login-sns clearfix"]/span')
#然后点击跳转到短信验证登录界面
jump.click()        
#找到输入手机号的框框
name_input = driver.find_element_by_name('phone')
#找到发送验证码的按钮
Verity_send = driver.find_element_by_class_name('js-signin-send')  
#找到输入验证码的框框
phoneVerity = driver.find_element_by_id('js-phoneVerity')  
#找到登录按钮
login_button = driver.find_element_by_xpath('//div[@class="rlf-group clearfix"]/input')

#改为自己的电话号码
username="11111111111"

name_input.clear()
name_input.send_keys(username)  # 填写用户名
time.sleep(0.2)

Verity_send.click()            # 点击获取验证码
time.sleep(2)

verity=input("输入验证码")
phoneVerity.clear()
phoneVerity.send_keys(verity)  # 填写密码
time.sleep(0.2)

login_button.click()            # 点击登录
time.sleep(0.2)

print( driver.get_cookies())
time.sleep(2)
print(driver.title)

这里需要在接收到验证码之后将验证码输入到编辑器的输入框,不是输入模拟网站的输入框 

好啦,我们已经成功登录了。

第一次尝试的baby是不是觉得很神奇,继续加油学习吧。

我是一个做大数据工作的平时比较懒的程序员,有一些比较有意思的爬虫想法,可是造诣不深,想多写写文章来激励自己,并总结一些学习经验,能为需要的人提供点帮助。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值