selenium爬取

本文介绍了Selenium作为一个Web应用程序测试工具的功能,它可以在多种浏览器中模拟真实用户操作。Selenium用于处理需要登录验证、动态加载的内容以及自动化数据提交。文章详细讲解了Selenium的环境配置,包括通过pip安装模块和设置Chrome内核。此外,还通过一个简单的实例展示了Selenium的基本使用,并推荐了一个Selenium IDE的辅助工具,该工具能自动记录网页元素的操作,简化 xpath 的编写,提升工作效率。
摘要由CSDN通过智能技术生成

selenium

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
在爬虫中有些需要用户登录发送验证以及某些链接加密网页,在最后的最后需要提交数据,时间较为紧迫时。js解密没有时间时,就可以使用selenium第三方模块去抓取。

配置环境

selenium模块可直接使用pip下载安装

pip install selenium

安装你所使用的浏览器内核,笔者使用的是chrome浏览器,所以安装的是chrome内核

度盘:https://pan.baidu.com/s/14WZmcVv5Rrwhli9t8XlWrw
提取码:80ia

下载之后将其放在一个文件夹中,在系统中添加环境变量即可。chrome浏览器版本需和内核版本对应,笔者使用的为chrome浏览器(71.0.3578.98)

selenium使用

接下来用一个简单的实例来演示selenium的使用

import time
from selenium import webdriver
option = webdriver.ChromeOptions()#初始化谷歌浏览器设置
#option.add_argument('headless')#添加无头设置
wb = webdriver.Chrome(chrome_options=option)#初始化浏览器
try:
    wb.get('https://www.tianyancha.com/')#获取网页
    wb.set_window_size(1536, 864)#设置窗口大小
    wb.implicitly_wait(5)#隐性等待
    wb.find_element_by_xpath('//div[@id="web-content"]/div/div/div/div/div/div[2]/div/div[4]/a').click()#使用xpath获取元素位置
    wb.implicitly_wait(5)
    wb.find_element_by_xpath('//div[@onclick="loginObj.changeCurrent(1);"]').click()
    wb.implicitly_wait(5)
    wb.find_element_by_css_selector('.modulein1 > .pb30 > .input').click()
    wb.find_element_by_css_selector('.modulein1 > .pb30 > .input').send_keys(u'17858150687')#属性值传输
    wb.find_element_by_css_selector('.input-pwd').click()
    wb.find_element_by_css_selector('.input-pwd').send_keys(u'tjt201901')
    wb.find_element_by_css_selector('input.contactautoLogin').click()
    wb.find_element_by_css_selector('.modulein1 > .btn').click()
    time.sleep(5)
    print(wb.get_cookies())#输出当前页面使用的cookies
except Exception as e:
    print(e)
else:
	wb.quit() #浏览器退出

在代码调试阶段不建议开启无头模式,无头模式指不打开浏览器窗口,可以节省一部分内存资源。

selenium IDE

有些时候可能会因为要定位该元素编写xpath耗费大量的时间,这里推荐一个好用的专门用于辅助编写selenium调试的辅助工具,可在谷歌网上应用商店中找到(需要科学上网工具)在这里插入图片描述
该工具使用类似于pycharm,新建一个项目,输出起始网址点击开始录制,在弹出的网页中进行操作,该工具会将你进行的操作和点击元素定位的xpath,css选择进行记录。
在这里插入图片描述

选择到具体的一条后可在target中选择使用的定位方式
在这里插入图片描述
这样就不用费神的去查看网页的标签编写xpath了,还是一个比较好用的辅助插件。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值