python使用selenium控制浏览器进行爬虫

最新推荐文章于 2024-07-23 16:23:28 发布

Hrational

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量1.3k

点赞数 11

文章标签： python selenium 爬虫

本文链接：https://blog.csdn.net/SDKL_YI/article/details/135196332

版权

本文介绍了如何在Python环境中使用Selenium库控制谷歌浏览器，包括安装chromedriver、设置webdriver以及常用的元素定位方法，如CSS选择器、XPath等，适用于基础爬虫操作。

摘要由CSDN通过智能技术生成

这里以谷歌浏览器为例，需要安装一下chromedriver，其他浏览器也有相对应的driver，chromedriver下载地址：https://googlechromelabs.github.io/chrome-for-testing/

然后是打开python环境安装一下依赖pip install selenium，验证一下控制浏览器是否成功

# -*- coding: utf-8 -*-
from selenium import webdriver

driverPath = r'D:\chromedriver-win64\chromedriver.exe'
driver = webdriver.Chrome(executable_path=driverPath)
url = 'http://www.baidu.com'
driver.get(url)

点击运行脚本可以看到以下页面就成功了。
在这里插入图片描述

爬虫的话需要使用到以下相关函数：

driver.find_element_by_class_name("class")      # 通过class属性值定位
driver.find_element_by_id("id")                 # 通过id值定位
driver.find_element_by_name("name")             # 通过属性名称定位
driver.find_element_by_css_selector("selector") # 通过css选择器定位，格式是(‘标签名[属性名=”属性值”]’)
driver.find_element_by_link_text("text")        # 通过超链接文本定位
driver.find_element_by_tag_name("tag")          # 通过标签定位
driver.find_element_by_xpath("path")            # 通过xpath路径定位