1.8 selenium工具

最新推荐文章于 2023-06-02 14:12:51 发布

YiHong_Li

最新推荐文章于 2023-06-02 14:12:51 发布

阅读量286

点赞数

分类专栏：一、爬虫基础框架urllib python爬虫从0到精通

本文链接：https://blog.csdn.net/YiHong_Li/article/details/86087564

版权

一、爬虫基础框架urllib 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

python爬虫从0到精通

13 篇文章 0 订阅

订阅专栏

课前说明：本章节请求的 url 部分用 ** 代替

本章节需要掌握的知识点：

selenium工具是使用。

介绍：

selenium是一种用于web程序测试的工具，selenium测试的代码可以直接运行在浏览器中，就像真正的用户操作一样。

在写python爬虫的时候,主要是用 selenium 的 webdriver 来驱动浏览器进行相关的操作

本章节用到的浏览器为谷歌浏览器。

首先需要安装 chromedriver：谷歌浏览器驱动

加载方法如下：

方法一：driver = webdriver.Chrome(r'/Users/fanjianbo/Desktop/chromedriver')

方法二：把 chromedriver 的目录配成环境变量路径，然后：driver = webdriver.Chrome()

【注意】chromedriver的版本要和chrome浏览器相对应，不然很多功能不能用！！！

下载操作谷歌浏览器驱动的页面：http://chromedriver.storage.googleapis.com/index.html

或者http://npm.taobao.org/mirrors/chromedriver/2.37/

谷歌驱动和谷歌浏览器版本之间的映射表：

http://blog.csdn.net/huilan_same/article/details/51896672

查看谷歌浏览器版本：打开浏览器 -> 找到又上角的 “三点” 点击 -> 找到 “帮助” -> 关于 Google Chrome 点击即可查看当前版本

selenium示例：

from selenium import webdriver
from time import sleep


# 加载驱动文件
driver = r"/home/**/Downloads/chromedriver"
#  创建浏览器的驱动对象
browser = webdriver.Chrome(executable_path=driver)
# 用浏览器发起一个请求
browser.get('https://www.bai**.com')
# 点击页面上的某个标签
btn = browser.find_element_by_link_text('新闻')
# 睡眠1秒，注意：睡眠是非常必要的哦，防止请求过于频繁导致服务器奔了
sleep(1)
# 点击
btn.click()
sleep(1)
# 取出网页的源码，这个源码就是经过浏览器解析并且运行以后生成的html源码
html = browser.page_source
# print(html)
# 向输入框中输入内容
browser.find_element_by_id('ww').send_keys('木子李')
browser.find_element_by_id('s_btn_wr').click()
sleep(1)
muzili_html = browser.page_source
# 退出浏览器（要记得退出浏览器哦！）
browser.quit()

selenium中元素查找：

find_element_by_id()

find_element_by_name()

find_element_by_xpath()

find_element_by_tag_name()

find_element_by_class_name()

find_element_by_css_selector()

find_element_by_link_text()

注意：