【爬虫】第五部分 selenium库

最新推荐文章于 2024-03-10 21:13:51 发布

Tree_wws

最新推荐文章于 2024-03-10 21:13:51 发布

阅读量509

点赞数 1

分类专栏： python 爬虫文章标签：爬虫 selenium python

本文链接：https://blog.csdn.net/Trees__/article/details/127721774

版权

python 爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

【爬虫】第五部分 selenium库

文章目录

【爬虫】第五部分 selenium库
5. selenium库
总结

5. selenium库

5.1 什么是selenium？为什么要学习它？

selenium 是一个自动化测试工具,支持Firefox,Chrome等众多浏览器。

作用：selenium 能够模拟真人打开浏览器，因此可以更好的获取我们需要的数据。(有时候，使用urllib库模拟浏览器的时候，会被服务器识别不是人为操作，返回的数据有所缺失，这个时候就需要selenium去模拟真人打开浏览器做爬虫)

5.2 准备工作

下载谷歌浏览器驱动 http://chromedriver.storage.googleapis.com/index.html

根据本身的chrome浏览器的版本，去安装对应的驱动

我的版本是 106.0.5249.119，所以就安装106的，下载完解压后放在程序的根目录下
下载selenium库 pip install selenium

5.3 基本使用

from selenium import webdriver

# 驱动的路径
path = 'chromedriver.exe'

# 创建浏览器
browser =  webdriver.Chrome(path)

# 需要访问的网站
url = 'https://www.baidu.com'

# 去访问浏览器
browser.get(url=url)

打开浏览器在百度中上搜索 “大家好”

from selenium import webdriver
import time
path = 'chromedriver.exe'
browser = webdriver.Chrome(path)

url = 'https://www.baidu.com'
browser.get(url)

input = browser.find_element('id','kw')
input.send_keys('大家好')
time.sleep(2)

button = browser.find_element('id','su')
button.click()