如何使用Selenium自动化Firefox浏览器进行Javascript内容的多线程和分布式爬取

最新推荐文章于 2025-01-08 20:52:17 发布

亿牛云爬虫专家

最新推荐文章于 2025-01-08 20:52:17 发布

阅读量1.5k

点赞数

分类专栏： seleuium 多线程爬虫技术文章标签： selenium 自动化 firefox python 网络爬虫爬虫代理

本文链接：https://blog.csdn.net/ip16yun/article/details/131917712

版权

爬虫技术同时被 3 个专栏收录

134 篇文章 0 订阅

订阅专栏

seleuium

47 篇文章 0 订阅

订阅专栏

多线程

42 篇文章 0 订阅

订阅专栏

概述

网页爬虫是一种自动化获取网页数据的技术，可用于数据分析、信息检索、竞争情报等。面临诸多挑战，如动态加载的Javascript内容、反爬虫机制、网络延迟、资源限制等。解决这些问题的高级爬虫技术包括Selenium自动化浏览器、多线程和分布式爬取。
Selenium是开源自动化测试工具，可模拟用户在浏览器中操作，如打开网页、点击链接、输入文本。支持多种浏览器，如Firefox、Chrome、IE等。Selenium等待Javascript执行完毕后返回网页源码，轻松处理动态加载的内容，绕过简单的反爬虫机制，如验证码、Cookie。
多线程是一种编程技术，让程序同时执行多个任务，提高效率和性能。多线程爬虫可同时抓取多个网页，减少网络延迟和等待时间。需合理设计和管理线程池、队列、锁，避免线程安全、资源竞争、内存消耗等问题。
分布式是一种系统架构，将大任务分解成多个小子任务，并在不同计算机上并行执行。分布式爬虫充分利用多台计算机资源，提高规模和速度。需使用专业框架和工具，如Scrapy、Celery、Redis等，解决复杂性和开销问题。

正文

在本文中，我们将介绍如何使用Selenium自动化Firefox浏览器进行Javascript内容的多线程和分布式爬取。我们将以一个简单的示例为例，抓取百度搜索结果页面中的标题和链接，并将结果保存到本地文件中。我们将使用Python语言编写代码，并使用爬虫代理服务器来隐藏我们的真实IP地址。
首先，我们需要安装Selenium库和Firefox浏览器，并下载对应版本的geckodriver驱动程序，并将其放到Python环境变量中。然后，我们需要导入以下模块：

# 导入模块
import requests
import threading
import queue
import time
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import Proxy, ProxyType

接下来，我们需要定义一个函数来创建一个Selenium自动化Firefox浏览器对象，并设置爬虫代理服务器和其他参数：

# 创建浏览器对象并设置爬虫代理服务器
def create_browser():
    # 亿牛云 爬虫代理加强版 代理服务器
    proxyHost = "www.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "16YUN"
    proxyPass = "16IP"

    # 设置代理服务器
    proxy = Proxy()
    proxy.proxy_type = ProxyType.MANUAL
    proxy.http_proxy = proxyHost + ":" + proxyPort
    proxy.ssl_proxy = proxyHost + ":" + proxyPort

    # 设置代理验证信息
    proxy.add_to_capabilities(DesiredCapabilities.FIREFOX)

    # 创建浏览器对象
    browser = webdriver.Firefox()

    # 设置浏览器窗口大小
    browser.set_window_size(800, 600)

    # 设置浏览器超时时间
    browser.set_page_load_timeout(10)

    # 设置浏览器代理验证信息
    browser.get("http://t.16yun.cn:31111")
    browser.find_element_by_id("username").send_keys(proxyUser)
    browser.find_element_by_id("password").send_keys(proxyPass)
    browser.find_element_by_id("submit").click()

    # 返回浏览器对象
    return browser

然后，我们需要定义一个函数来抓取一个网页的标题和链接，并将结果保存到本地文件中：

# 抓取一个网页的标题和链接，并将结果保存到本地文件中
def crawl_page(browser, url, file):
    # 打开网页
    browser.get(url)

    # 获取网页标题和链接
    titles = browser.find_elements_by_xpath("//h3[@class='t']/a")
    links = [title.get_attribute("href") for title in titles]

    # 将结果写入文件中
    with open(file, "a", encoding="utf-8") as f:
        for title, link in zip(titles, links):
            f.write(title.text + "\t" + link + "\n")

接下来，我们需要定义一个函数来生成百度搜索结果页面的URL列表，我们将以“Selenium”为关键词，抓取前10页的结果：

# 生成百度搜索结果页面的URL列表
def generate_urls(keyword, pages):
    # 定义URL列表
    urls = []

    # 定义百度搜索结果页面的基本URL
    base_url = "https://www.baidu.com/s?wd=" + keyword

    # 循环生成URL列表
    for page in range(1, pages + 1):
        # 定义每一页的URL参数
        params = "&pn=" + str((page - 1) * 10)

        # 拼接完整的URL并添加到列表中
        url = base_url + params
        urls.append(url)

    # 返回URL列表
    return urls

接下来，我们需要定义一个函数来执行多线程爬虫的主要逻辑，我们将使用一个线程池来管理多个浏览器对象，并使用一个队列来存储待抓取的URL列表：

# 执行多线程爬虫的主要逻辑
def run_crawler(keyword, pages, threads, file):
    # 生成百度搜索结果页面的URL列表
    urls = generate_urls(keyword, pages)

    # 创建一个队列来存储待抓取的URL列表，并将URL添加到队列中
    q = queue.Queue()
    for url in urls:
        q.put(url)

    # 创建一个线程池来管理多个浏览器对象，并创建对应数量的浏览器对象并添加到线程池中
    pool = []
    for i in range(threads):
        browser = create_browser()
        pool.append(browser)

    # 定义一个函数来执行每个线程的任务，即从队列中获取一个URL，并使用一个浏览器对象来抓取该网页，并将结果保存到本地文件中，然后释放该浏览器对象，并重复该过程，直到队列为空或出现异常
    def worker():
        while True:
            try:
                # 从队列中获取一个URL，如果队列为空，则退出循环
                url = q.get(block=False)
            except queue.Empty:
                break

            try:
                # 从线程池中获取一个浏览器对象，如果线程池为空，则退出循环
                browser = pool.pop()
            except IndexError:
                break

            try:
                # 使用浏览器对象来抓取该网页，并将结果保存到本地文件中
                crawl_page(browser, url, file)
            except Exception as e:
                # 打印异常信息
                print(e)

            finally:
                # 将浏览器对象放回线程池中
                pool.append(browser)

# 创建一个空列表来存储多个线程对象，并创建对应数量的线程对象并添加到列表中，并启动每个线程
threads = []
for i in range(threads):
    t = threading.Thread(target=worker)
    threads.append(t)
    t.start()

# 等待所有线程结束
for t in threads:
    t.join()

# 关闭所有浏览器对象
for browser in pool:
    browser.quit()

最后，我们需要定义一个主函数来调用上面定义的函数，并设置一些参数，如关键词、页数、线程数、文件名等：

# 主函数
def main():
    # 设置关键词
    keyword = "Selenium"

    # 设置页数
    pages = 10

    # 设置线程数
    threads = 5

    # 设置文件名
    file = "results.txt"

    # 执行多线程爬虫的主要逻辑
    run_crawler(keyword, pages, threads, file)

# 调用主函数
if __name__ == "__main__":
    main()

案例

运行上面的代码，我们可以在本地文件中看到如下的结果：
Selenium - Web Browser Automation Selenium - Web Browser Automation (https://www.selenium.dev/)
Selenium教程_w3cschool Selenium教程_w3cschool (https://www.w3cschool.cn/selenium/)
Selenium_百度百科 Selenium_百度百科 (https://baike.baidu.com/item/Selenium/1096491)
Selenium教程 - 菜鸟教程 Selenium教程 - 菜鸟教程 (https://www.runoob.com/selenium/selenium-tutorial.html)
Selenium中文社区_Selenium自动化测试_Selenium教程_Selenium … Selenium中文社区_Selenium自动化测试_Selenium教程_Selenium … (http://www.selenium.org.cn/)
Selenium - Wikipedia Selenium - Wikipedia (https://en.wikipedia.org/wiki/Selenium)