selenium作为python模块中实现自动化操作功能,首先需要导入模块
from selenium.webdriver.chrome.service import Service
此代码是python打开网页的浏览器,此处为谷歌浏览器
from selenium import webdriver from selenium.webdriver.common.by import By
这里是数据抓取的方法
"""获取某宝网址"""
driver.get('https://www.taobao.com/')
driver.maximize_window()
将页面窗口放到最大
time.sleep(5)
强制停止5秒,让页面进行数据加载
在使用selenium时,我们需要模块驱动,chromedriver.exe文件,这里可以直接在浏览器当中进行搜索
当运行python进入到网页时,大部分网页都会检测selenium模块,进而进行反制,所以,在这里我们可以携带浏览器当中的用户信息,前提我们需要在浏览器中先进行登录操作,然后在使用selenium模块就可以跳过登录验证码
service = Service(executable_path='chromedriver.exe') # 指定路径
option = webdriver.ChromeOptions()
user_data_dir = r'C:\Users\86150\AppData\Local\Google\Chrome\User Data'
# 通过携带浏览器用户信息,跳过登录验证码
option.add_argument(f'--user-data-dir={user_data_dir}')
driver = webdriver.Chrome(service=service, options=option) # 请求服务
driver.implicitly_wait(10) #网页隐式等待10秒