网络爬虫：使用 requests抓取静态网页数据

我爱吃非常荷包蛋

已于 2023-12-26 15:32:19 修改

阅读量3.8k

点赞数 41

文章标签：爬虫

于 2023-12-26 15:25:16 首次发布

本文链接：https://blog.csdn.net/2301_77070523/article/details/135222796

版权

本文详细介绍了如何使用Python的requests库抓取静态网页数据，包括选择工具、分析网页结构、发送HTTP请求、解析HTML、数据提取和存储，以及遵守法律法规的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、如何抓取静态网页数据？

1.选择合适的工具：常用的爬虫工具有 Python 的 requests、BeautifulSoup 和 Scrapy 等。这些工具可以帮助我们发送 HTTP 请求、解析 HTML 页面和提取所需数据。

2.分析网页结构：在开始抓取之前，我们需要对目标网页进行分析，了解其结构、数据存放的位置等信息。这有助于我们编写更加准确的爬虫代码。

3.发送 HTTP 请求：使用爬虫工具发送 HTTP 请求，获取目标网页的 HTML 内容。在 Python 中，我们可以使用 requests 库发送 GET 或 POST 请求。

4.解析 HTML：一旦我们获得了网页的 HTML 内容，就需要对其进行解析，提取所需的数据。Python 的 BeautifulSoup 和 Scrapy 等库可以帮助我们完成这一步。

5.数据提取：根据目标网页的结构和数据存放位置，我们可以编写相应的代码来提取所需的数据。这可能涉及到选择特定的 HTML 标签、使用正则表达式等方法。

6.数据存储：将提取到的数据存储到本地文件或数据库中，以便后续的分析和处理。常用的存储方式包括 CSV 文件、Excel 表格和关系型数据库等。

7.遵守法律法规：在使用爬虫抓取数据时，我们应遵守法律法规和网站的 robots.txt 文件规定，尊重网站的知识产权和隐私权。

二、使用 requests库来爬取网页数据。

1.安装requests库：

首先，确保已经安装了requests库。如果没有安装，可以通过运行pip install requests命令进行安装。

2.发送HTTP请求：

使用requests库的get()方法发送HTTP GET请求到目标网页的URL。这将返回一个Response对象，其中包含了服务器的响应内容。

（1）发送GET请求：

在Requests库中，GET请求通过调用get()函数发送，该函数会根据传入的URL构建一个请求（每个请求都是Request类的对象），将该请求发送给服务器。get()函数的声明如下：

get(url, params=None, headers=None, cookies=None, 
                              verify=True,proxies=None,timeout=None,**kwargs)

url：必选参数，表示请求的URL。

params：可选参数，表示请求的查询字符串。

headers：可选参数，表示请求的请求头，该参数只支持字典类型的值。

cookies：可选参数，表示请求的Cookie信息，该参数支持字典或CookieJar类对象。

verify：可选参数，表示是否启用SSL证书，默认值为True。

proxies：可选参数，用于设置代理服务器，该参数只支持字典类型的值。

timeout：可选参数，表示请求网页时设定的超时时长，以秒为单位

（2）发送POST 请求：

在Requests中，POST请求可以通过调用post()函数发送，post()函数会根据传入的URL构建一个请求，将该请求发送给服务器，并接收服务器成功响应后返回的响应信息。post()函数的声明如下：

post(url, data=None, headers=None, cookies=None, verify=True, 
     proxies=None, timeout=None, json=None, **kwargs)

data：可选参数，表示请求数据。该参数可以接收3种类型的值，分别为字典、字节序列和文件对象。当参数值是一个字典时，字典的键为请求数据的字段，字典的值为请求数据中该字段对应的值，例如{"ie": "utf-8","wd": "python"}。

json：可选参数，表示请求数据中的JSON数据。

3.处理响应内容：

通过Response对象，你可以访问服务器的响应内容。常见的属性包括：

1.response.text: 获取服务器响应的文本内容，以字符串形式表示。

2.response.json(): 如果服务器返回的是JSON格式的数据，可以使用json()方法将其解析为Python对象。

3.response.headers: 获取服务器响应的头部信息。

4.response.status_code: 获取服务器的响应状态码，例如200表示成功，404表示未找到等。

if response.status_code == 200:  
    content = response.text  # 获取服务器响应的文本内容  
    # 对内容进行处理或存储等操作  
else:  
    print('请求失败:', response.status_code)

4.解析网页内容：

如果你需要对响应的文本内容进行进一步处理，可以使用Python的字符串处理、正则表达式或HTML解析库（如BeautifulSoup）来解析网页结构。

5.数据提取：

（1）使用BeautifulSoup库：

BeautifulSoup是一个用于解析HTML和XML文档的库，可以与requests库配合使用，方便地提取网页数据。安装BeautifulSoup库后，可以使用它提供的选择器语法来定位和提取HTML元素。以下是一个简单的示例：

from bs4 import BeautifulSoup  
import requests  
  
url = 'https://example.com'  # 目标网页的URL  
response = requests.get(url)  
soup = BeautifulSoup(response.text, 'html.parser')  
  
# 提取特定元素  
element = soup.find('div', {'class': 'my-class'})  # 查找class为my-class的div元素

（2）使用XPath或CSS选择器：

除了BeautifulSoup库，还可以使用XPath或CSS选择器来定位和提取HTML元素。requests库返回的响应对象提供了text属性，可以将其作为字符串传递给XPath或CSS选择器。以下是一个使用XPath选择器的示例：

import requests  
from lxml import html  
  
url = 'https://example.com'  # 目标网页的URL  
response = requests.get(url)  
tree = html.fromstring(response.text)  
  
# 提取特定元素  
element = tree.xpath('//div[@class="my-class"]')  # 查找class为my-class的div元素

（3）正则表达式提取：

对于需要匹配特定模式的文本数据，可以使用正则表达式进行提取。requests库返回的响应对象中的text属性包含网页的文本内容，可以将其作为字符串传递给正则表达式函数。以下是一个使用正则表达式的示例：

import requests  
import re  
  
url = 'https://example.com'  # 目标网页的URL  
response = requests.get(url)  
text = response.text  # 获取网页文本内容  
  
# 提取特定文本模式  
pattern = re.compile(r'\d+')  # 匹配数字模式  
matches = pattern.findall(text)  # 在文本中查找匹配项

6.数据存储：

（1）CSV文件：

CSV（逗号分隔值）是一种常见的文件格式，用于存储表格数据。你可以使用Python内置的文件操作功能，将提取到的数据以CSV格式保存到本地文件中。以下是一个简单的示例：

import csv  
import requests  
  
# 提取数据  
data = [('Name', 'Age', 'Gender'), ('John', '25', 'Male'), ('Jane', '30', 'Female')]  
  
# 将数据写入CSV文件  
with open('data.csv', 'w', newline='') as file:  
    writer = csv.writer(file)  
    writer.writerows(data)

（2）Excel表格：

Excel是一种电子表格软件，可以用来存储和展示数据。你可以使用Python的第三方库，如openpyxl或pandas，将提取到的数据保存到Excel表格中。以下是一个使用pandas库的示例：

import pandas as pd  
import requests  
  
# 提取数据  
data = {'Name': ['John', 'Jane'], 'Age': [25, 30], 'Gender': ['Male', 'Female']}  
  
# 将数据转换为DataFrame对象  
df = pd.DataFrame(data)  
  
# 将DataFrame保存为Excel文件  
df.to_excel('data.xlsx', index=False)

（3）数据库：

数据库是一种存储结构化数据的系统，常见的数据库系统包括MySQL、PostgreSQL和SQLite等。你可以使用Python的数据库连接库，如sqlite3（用于SQLite数据库）或psycopg2（用于PostgreSQL数据库），将提取到的数据存储到关系型数据库中。以下是一个使用sqlite3库的示例：

import sqlite3  
import requests  
  
# 创建数据库连接  
conn = sqlite3.connect('data.db')  
cursor = conn.cursor()  
  
# 创建表结构（如果表不存在）  
cursor.execute('''CREATE TABLE IF NOT EXISTS users (name TEXT, age INT, gender TEXT)''')  
  
# 提取数据并存储到数据库中  
data = [('John', 25, 'Male'), ('Jane', 30, 'Female')]  
cursor.executemany('INSERT INTO users (name, age, gender) VALUES (?, ?, ?)', data)  
conn.commit()  
conn.close()