网络爬虫解析

盆蒂

已于 2024-01-05 23:49:07 修改

阅读量2.2k

点赞数 50

文章标签：爬虫

于 2024-01-05 23:13:41 首次发布

本文链接：https://blog.csdn.net/2301_82032652/article/details/135418439

版权

本文详细介绍了网络爬虫的基本概念、常用工具如Scrapy、BeautifulSoup和Selenium，以及它们在爬取静态和动态网页中的应用。特别关注了动态网页抓取的方法，如Selenium和分析网络请求。

摘要由CSDN通过智能技术生成

一、什么是网络爬虫

网络爬虫（也称为网页蜘蛛、网络机器人）是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫可以用于从网站提取数据，例如监测社交媒体平台上的活动，或者从网上收集新闻和文章。它们也可以用于搜索引擎，如Google和Bing，来抓取和索引网页，以便在用户进行搜索时提供结果。

1.爬虫软件：

常见的爬虫软件包括但不限于：

Scrapy：一个用于Python的快速、高层次的网络爬虫框架。它可用于抓取网页并从中提取数据。
Beautiful Soup：一个用于解析HTML和XML文档的Python库，常与Scrapy一起使用，主要用于提取和清洗数据。
Selenium：主要用于模拟用户在浏览器中的行为，如点击按钮、滚动页面等，常用于动态网页的爬取。
Requests：一个用于发送HTTP请求的Python库，可以抓取网页内容。
PySpider：一个功能强大的网络爬虫框架，支持多种协议和媒体类型，支持分布式部署。

2.爬虫的组成部分

爬虫的组成部分主要包括以下四个部分：

URL管理器：URL管理器主要负责管理待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL。URL管理器可以通过内存、数据库、缓存数据库等方式实现。
调度器：调度器主要负责调度URL管理器、下载器、解析器之间的协调工作，类似于电脑的CPU。
网页下载器：网页下载器通过传入一个URL地址来下载网页，将网页转换成一个字符串。常用的网页下载器有urllib2（Python官方基础模块）和requests（第三方包）。
网页解析器：网页解析器将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析

在了解网络爬虫前我们需要来理解URI和URL

2.URI和URL的概念

URI 是统一资源标识符，用于唯一标识一个资源。它包括协议类型、主机名、路径和查询参数等组成部分。URI可以用来定位网络上的任何资源，如网页、图片、视频等。它是抽象的概念，可以用绝对路径和相对路径两种方式表示。

URL 是统一资源定位符，是一种具体的URI。URL用于标识一个网络上的资源，并指明如何定位该资源。URL包含协议类型、主机名、端口号、路径和查询参数等组成部分。URL可以用来定位网页、图片、视频等网络资源，它是具体的概念，以一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。

2.1什么是URL：

URL通常由多个部分组成，包括协议类型（如HTTP、HTTPS）、主机名（域名或IP地址）、路径（资源在主机上的位置）以及可选的查询参数（用于传递额外的信息）。通过URL，用户可以方便地访问和定位到特定的网络资源。

URL是Web中的一个核心概念，它是浏览器用来检索Web上公布的任何资源的机制。理论上说，每个有效的URL都指向一个唯一的资源，但在实际中，也有一些例外情况，如URL指向不存在的资源或被移动过的资源。因此，web服务器的拥有者需要认真地维护资源以及与它关联的URL。

url = "http://www.example.com/path?name=value"

2.2urllib库概括：

urllib库是Python中的一个基本的网络请求库，可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。它包括以下内容：

request模块：HTTP请求模块，可以用来模拟发送请求，只需要传入URL额外参数就可以模拟浏览器访问页面的过程。
error模块：异常处理模块，检测请求是否报错，捕捉异常错误，进行重试或者其他操作，保证程序不会终止。
parse模块：工具模块，提供许多URL处理方法。如拆分、解析、合并等。
robotparse模块：识别网站的robots.txt文件，判断那些网站可以爬。

request模块：

urllib.request模块是Python内置的HTTP请求库，可以用来向指定的URL发送请求并获取响应。它是Python内置的urllib库的一部分，提供了HTTP（或其他协议如FTP）请求的方法。通过使用urllib.request模块，你可以方便地发送各种类型的请求，例如GET、POST等，并且可以获取响应的状态码、头部信息和响应的内容

urllib.request.urlopen() 函数

urlopen() 函数会向指定的 URL 发送一个 HTTP GET 请求，并返回一个响应对象。你可以使用这个响应对象来获取响应的状态码、头部信息、以及响应的内容。
import urllib.request  
  
response = urllib.request.urlopen('http://www.example.com')  
print(response.read())

urllib.request.urlretrieve() 函数

urlretrieve() 函数会向指定的 URL 发送一个 HTTP GET 请求，并将响应的内容保存到一个本地文件中。你可以指定本地文件的路径和名称，函数会自动完成下载和保存的过程。
import urllib.request  
  
url = 'http://www.example.com/file.txt'  
filename = 'file.txt'  
  
urllib.request.urlretrieve(url, filename)

error模块：

urllib.error模块是Python的urllib库中的一个异常处理模块。它包含了在发送HTTP请求时可能会发生的异常类，用于处理urllib.request模块中可能出现的错误

urllib.error.URLError

import urllib.request  
from urllib.error import URLError  
  
try:  
    response = urllib.request.urlopen('http://www.example.com')  
    print(response.read())  
except URLError as e:  
    print('URL Error:', e.reason)

parse模块：

urllib.parse模块在Python中主要用于处理URLs。它的主要作用是允许用户解析、构建、和操作URLs。具体来说，这个模块提供了多种函数和类，用于将URLs分解为不同的组件，或者将组件重新组合为URLs

`urlparse()`, `quote()`, `unquote()`, `urlunparse()`

from urllib.parse import urlparse, quote, unquote, urlunparse  
  
# 解析URL  
url = "http://www.example.com/path?query=value#fragment"  
parts = urlparse(url)  
print(parts)  # ParseResult(scheme='http', netloc='www.example.com', path='/path', params='', query='query=value', fragment='fragment')  
  
# 编码和解码URL  
encoded = quote('一个测试')  
print(encoded)  # %E4%B8%80%E6%B5%8B%E8%AF%95  
decoded = unquote(encoded)  
print(decoded)  # 一个测试  
  
# 重新构建URL  
new_url = urlunparse((parts.scheme, parts.netloc, parts.path, '', parts.query, parts.fragment))  
print(new_url)  # http://www.example.com/path?query=value#fragment

robotparse模块：

robotparser模块提供了RobotFileParser类，这个类用于读取和解析robots.txt文件。你可以使用这个类的get_rules()方法获取规则，并根据规则判断爬虫是否有权限访问某个URL

Robot Framework

from robotparse import parse_output  
  
# 假设你有一个Robot Framework的输出文件，例如：output.xml  
with open('output.xml', 'r') as file:  
    output = file.read()  
  
# 使用robotparse的parse_output函数解析输出  
parsed_output = parse_output(output)  
  
# 打印每个测试用例的状态和日志  
for test in parsed_output.tests:  
    print(f"Test Case: {test.name}")  
    print(f"Status: {test.status}")  
    print(f"Log: {test.log}")

下面是一个简单的示例代码，展示如何使用urllib库获取博客文章的HTML内容：

import urllib.request  
  
# 指定博客文章的URL  
url = "http://example.com/blog/article"  
  
# 创建一个URL请求对象  
req = urllib.request.urlopen(url)  
  
# 读取请求对象的响应内容  
html = req.read()  
  
# 打印HTML内容  
print(html)

在大数据的时代，网络爬虫已经成为获取数据的重要手段。静态网页由于其结构固定、内容不变，相对容易被爬虫抓取。然而，随着Web技术的不断发展，越来越多的网站开始采用动态网页技术，这给网络爬虫带来了新的挑战。

3.怎么爬取动态网页：

爬取动态网页需要一些特殊的方法，因为这些网页的内容是通过JavaScript在客户端渲染生成的，而传统的网络爬虫只能获取服务器返回的HTML代码，无法执行JavaScript代码，因此无法获取到渲染后的内容。以下是一些爬取动态网页的方法：

使用Selenium等工具：Selenium是一个自动化测试工具，可以模拟用户在浏览器中的操作，如点击、输入等。通过Selenium，我们可以启动一个浏览器，加载网页，并执行JavaScript代码，从而获取到渲染后的内容。这种方法的缺点是速度较慢，且需要安装和配置浏览器环境。
使用Puppeteer等工具：Puppeteer是Google开发的一个Node库，可以提供一个高级API来控制Chrome或Chromium。与Selenium相比，Puppeteer更加轻量级，且速度更快。
分析网络请求：对于一些使用AJAX等技术加载数据的网页，我们可以通过分析网络请求，找到数据的来源，然后直接请求这些数据。这种方法的优点是速度快，但需要对网络请求有一定的了解和分析能力。

3.1技术方法

使用Selenium模拟浏览器：Selenium是一个自动化测试工具，可以模拟浏览器的操作。你可以使用Selenium来加载动态网页，并执行JavaScript代码，从而获取到渲染后的内容。
- 安装Selenium：你可以使用pip命令来安装Selenium。
- 启动浏览器：使用Selenium的WebDriver来控制浏览器，如Chrome或Firefox。
- 加载网页：通过WebDriver的get方法加载目标网页。
- 等待数据加载：使用Selenium提供的等待方法，如隐式等待或显式等待，来确保数据已经加载完成。
- 获取数据：使用Selenium的选择器方法，如find_element_by_id、find_elements_by_class_name等，来获取网页中的数据。

以下是使用Python和Selenium爬取动态网页的示例代码：

from selenium import webdriver  
from selenium.webdriver.common.by import By  
from selenium.webdriver.support.ui import WebDriverWait  
from selenium.webdriver.support import expected_conditions as EC  
  
# 启动Chrome浏览器  
driver = webdriver.Chrome()  
  
# 加载目标网页  
driver.get("http://example.com")  
  
# 等待数据加载完成  
wait = WebDriverWait(driver, 10)  
  
# 获取数据  
data = wait.until(EC.presence_of_element_located((By.ID, "data-id"))).text  
  
# 关闭浏览器  
driver.quit()

在上述代码中，我们使用Selenium的Chrome WebDriver来启动Chrome浏览器，并加载目标网页。然后，我们使用WebDriverWait来等待数据加载完成，并使用Selenium的选择器方法来获取网页中的数据。最后，我们关闭浏览器。

盆蒂

关注

50
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫解析

网络爬虫（也称为网页蜘蛛、网络机器人）是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫可以用于从网站提取数据，例如监测社交媒体平台上的活动，或者从网上收集新闻和文章。它们也可以用于搜索引擎，如Google和Bing，来抓取和索引网页，以便在用户进行搜索时提供结果。URL通常由多个部分组成，包括协议类型（如HTTP、HTTPS）、主机名（域名或IP地址）、路径（资源在主机上的位置）以及可选的查询参数（用于传递额外的信息）。通过URL，用户可以方便地访问和定位到特定的网络资源。
复制链接

扫一扫