selenium爬取

本文介绍了Selenium作为一个Web应用程序测试工具的功能,它可以在多种浏览器中模拟真实用户操作。Selenium用于处理需要登录验证、动态加载的内容以及自动化数据提交。文章详细讲解了Selenium的环境配置,包括通过pip安装模块和设置Chrome内核。此外,还通过一个简单的实例展示了Selenium的基本使用,并推荐了一个Selenium IDE的辅助工具,该工具能自动记录网页元素的操作,简化 xpath 的编写,提升工作效率。
摘要由CSDN通过智能技术生成

selenium

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
在爬虫中有些需要用户登录发送验证以及某些链接加密网页,在最后的最后需要提交数据,时间较为紧迫时。js解密没有时间时,就可以使用selenium第三方模块去抓取。

配置环境

selenium模块可直接使用pip下载安装

pip install selenium

安装你所使用的浏览器内核,笔者使用的是chrome浏览器,所以安装的是chrome内核

度盘:https://pan.baidu.com/s/14WZmcVv5Rrwhli9t8XlWrw
提取码:80ia

下载之后将其放在一个文件夹中,在系统中添加环境变量即可。chrome浏览器版本需和内核版本对应,笔者使用的为chrome浏览器(71.0.3578.98)

selenium使用

接下来用一个简单的实例来演示selenium的使用

import time
from selenium import webdriver
option = webdriver.ChromeOptions()#初始化谷歌浏览器设置
#option.add_argument('headless')#添加无头设置
wb = webdriver.Chrome(chrome_options=option)#初始化浏览器
try:
    wb.get('https://www.tianyancha.com/')#获取网页
    wb.set_window_size(1536, 864)#设置窗口大小
    wb.implicitly_wait(5)#隐性等待
    wb.find_element_by_xpath('//div[@id="web-content"]/div/div/div/div/div/div[2]/div/div[4]/a').click()#使用xpath获取元素位置
    wb.implicitly_wait(5)
    wb.find_element_by_xpath('//div[@onclick="loginObj.changeCurrent(1);"]').click()
    wb.implicitly_wait(5)
    wb.find_element_by_css_selector('.modulein1 > .pb30 > .input').click()
    wb.find_element_by_css_selector('.modulein1 > .pb30 > .input').send_keys(u'17858150687')#属性值传输
    wb.find_element_by_css_selector('.input-pwd').click()
    wb.find_element_by_css_selector('.input-pwd').send_keys(u'tjt201901')
    wb.find_element_by_css_selector('input.contactautoLogin').click()
    wb.find_element_by_css_selector('.modulein1 > .btn').click()
    time.sleep(5)
    print(wb.get_cookies())#输出当前页面使用的cookies
except Exception as e:
    print(e)
else:
	wb.quit() #浏览器退出

在代码调试阶段不建议开启无头模式,无头模式指不打开浏览器窗口,可以节省一部分内存资源。

selenium IDE

有些时候可能会因为要定位该元素编写xpath耗费大量的时间,这里推荐一个好用的专门用于辅助编写selenium调试的辅助工具,可在谷歌网上应用商店中找到(需要科学上网工具)在这里插入图片描述
该工具使用类似于pycharm,新建一个项目,输出起始网址点击开始录制,在弹出的网页中进行操作,该工具会将你进行的操作和点击元素定位的xpath,css选择进行记录。
在这里插入图片描述

选择到具体的一条后可在target中选择使用的定位方式
在这里插入图片描述
这样就不用费神的去查看网页的标签编写xpath了,还是一个比较好用的辅助插件。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大学生参加学科竞赛有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域有更深刻的理解。在竞赛过程中,学生通常需要解决实际问题,这锻炼了他们独立思考和解决问题的能力。 其次,学科竞赛培养了学生的团队合作精神。许多竞赛项目需要团队协作来完成,这促使学生学会有效地与他人合作、协调分工。在团队合作中,学生们能够学到如何有效沟通、共同制定目标和分工合作,这对于日后进入职场具有重要意义。 此外,学科竞赛是提高学生综合能力的一种途径。竞赛项目通常会涉及到理论知识、实际操作和创新思维等多个方面,要求参赛者具备全面的素质。在竞赛过程中,学生不仅需要展现自己的专业知识,还需要具备创新意识和解决问题的能力。这种全面的综合能力培养对于未来从事各类职业都具有积极作用。 此外,学科竞赛可以为学生提供展示自我、树立信心的机会。通过比赛的舞台,学生有机会展现自己在专业领域的优势,得到他人的认可和赞誉。这对于培养学生的自信心和自我价值感非常重要,有助于他们更加积极主动地投入学习和未来的职业生涯。 最后,学科竞赛对于个人职业发展具有积极的助推作用。在竞赛中脱颖而出的学生通常能够引起企业、研究机构等用人单位的关注。获得竞赛奖项不仅可以作为个人履历的亮点,还可以为进入理想的工作岗位提供有力的支持。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值