【爬虫】第五部分 selenium库
5. selenium库
5.1 什么是selenium?为什么要学习它?
selenium 是一个自动化测试工具,支持Firefox,Chrome等众多浏览器。
作用:selenium 能够模拟真人打开浏览器,因此可以更好的获取我们需要的数据。(有时候,使用urllib库模拟浏览器的时候,会被服务器识别不是人为操作,返回的数据有所缺失,这个时候就需要selenium去模拟真人打开浏览器 做爬虫)
5.2 准备工作
-
下载谷歌浏览器驱动
http://chromedriver.storage.googleapis.com/index.html
根据本身的chrome浏览器的版本,去安装对应的驱动
我的版本是 106.0.5249.119,所以就安装106的,下载完解压后放在程序的根目录下
-
下载selenium库
pip install selenium
5.3 基本使用
from selenium import webdriver
# 驱动的路径
path = 'chromedriver.exe'
# 创建浏览器
browser = webdriver.Chrome(path)
# 需要访问的网站
url = 'https://www.baidu.com'
# 去访问浏览器
browser.get(url=url)
打开浏览器在百度中上搜索 “大家好”
from selenium import webdriver
import time
path = 'chromedriver.exe'
browser = webdriver.Chrome(path)
url = 'https://www.baidu.com'
browser.get(url)
input = browser.find_element('id','kw')
input.send_keys('大家好')
time.sleep(2)
button = browser.find_element('id','su')
button.click()
总结
以上就是今天要讲的内容,希望对大家有所帮助!!!