python网络爬虫学习笔记之三 Selenium入门

最新推荐文章于 2022-09-27 18:41:53 发布

盛桃云

最新推荐文章于 2022-09-27 18:41:53 发布

阅读量262

点赞数

分类专栏： python 文章标签： python selenium

本文链接：https://blog.csdn.net/bowei026/article/details/90724538

版权

python 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

抓取动态的网页内容主要有两种办法，一种是通过开发者工具找到动态内容的接口，然后分析接口的参数和返回值来爬取网站的数据。另外一种是通过模拟浏览器来抓取数据。python的Selenium库就可以通过代码来模拟浏览器抓取数据。

一、概述

运行Selenium需要依赖于Python的selenium库，以及浏览器对应驱动器（WebDriver）。

安装selenium库

pip install selenium
项目地址： https://pypi.org/project/selenium/

下载WebDriver

WebDriver可以简单的理解为浏览器插件，是可执行的程序。不同的浏览器对应的WebDriver是不同的，比如火狐浏览器的WebDriver是geckodriver，Windows环境下是geckodriver.exe文件；Chrome浏览器的WebDriver是Chromedriver，Windows环境下是chromedriver.exe文件。

Webdriver下载之后解压缩，将exe文件复制到python目录下（只要目录在path环境变量中就可以）

火狐的webdriver下载
https://github.com/mozilla/geckodriver/

google chrome 的webdriver下载（按浏览器版本下载对应的webdriver，如果Chrome的版本与chromedriver.exe的版本不匹配，那么selenium的python程序会运行失败的）
http://chromedriver.storage.googleapis.com/index.html

二、例子

例子1：
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
assert '百度一下' in browser.title

#elem = browser.find_element_by_name("wd")
elem = browser.find_element_by_xpath('//*[@id="kw"]')
elem.send_keys("selenium")

btn = browser.find_element_by_id("su")
btn.click()

#browser.quit()

例子2：
import unittest
from selenium import webdriver

class BaiduTest(unittest.TestCase):

def setUp(self):
self.browser = webdriver.Firefox()
self.browser.get("http://www.baidu.com")
#self.addCleanup(self.browser.quit)

def testTitle(self):
self.assertIn("百度一下", self.browser.title)

def testSearch(self):
#self.browser.get("http://www.baidu.com")
searchInput = self.browser.find_element_by_id("kw")
searchInput.send_keys("selenium")

searchBtn = self.browser.find_element_by_id("su")
searchBtn.click()

self.assertIn("selenium", self.browser.current_url)

if __name__ == '__main__':
unittest.main(verbosity=2)

其他资源：
https://www.seleniumhq.org/download/
http://ftp.mozilla.org/pub/firefox/releases/ 火狐版本
https://www.cnblogs.com/givemelove/p/8482361.html 火狐、谷歌软件及webdriver

本文内容到此结束，更多内容可关注公众号和个人微信号：