使用 requests 和 BeautifulSoup 解析淘宝商品

数据小爬虫@

于 2025-04-02 15:39:06 发布

阅读量785

点赞数 15

文章标签： beautifulsoup

本文链接：https://blog.csdn.net/2401_87849335/article/details/146948566

版权

以下将详细解释如何通过这两个库来实现按关键字搜索并解析淘宝商品信息。

一、准备工作

1. 安装必要的库

在开始之前，确保已经安装了 requests 和 BeautifulSoup 库。如果尚未安装，可以通过以下命令进行安装：

bash

pip install requests
pip install beautifulsoup4

2. 了解目标网页的结构

在编写爬虫代码之前，需要先了解淘宝搜索结果页面的 HTML 结构。可以通过浏览器的开发者工具（按 F12 打开）来查看页面的 HTML 源码。

例如，当你在淘宝搜索框中输入关键字并点击搜索后，页面会加载出一系列商品信息。这些商品信息通常被包裹在某些特定的 HTML 标签和类名中。

二、编写爬虫代码

以下是使用 requests 和 BeautifulSoup 解析淘宝商品信息的详细步骤和代码示例。

1. 发起请求

使用 requests 库向淘宝搜索页面发起请求，并获取页面的 HTML 内容。

Python

import requests

def get_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print(f"请求失败，状态码：{response.status_code}")
        return None

2. 解析 HTML

使用 BeautifulSoup 解析获取到的 HTML 内容，并提取商品信息。

Python

from bs4 import BeautifulSoup

def parse_product_details(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 淘宝商品信息通常被包裹在 <div class="m-itemlist"> 中
    products = soup.select(".m-itemlist .items .item")
    for product in products:
        try:
            # 提取商品名称
            title = product.select_one(".title").get_text(strip=True)
            # 提取商品价格
            price = product.select_one(".price").get_text(strip=True)
            # 提取店铺名称
            shop = product.select_one(".shop").get_text(strip=True)
            # 提取商品链接
            link = product.select_one("a").get('href')
            print(f"商品名称: {title}")
            print(f"商品价格: {price}")
            print(f"店铺名称: {shop}")
            print(f"商品链接: https:{link}")
            print("------------------------")
        except Exception as e:
            print(f"解析错误：{e}")

3. 搜索商品

将上述两个函数组合起来，实现按关键字搜索并解析商品信息的功能。

Python

def search_products(keyword):
    # 构造搜索 URL
    url = f"https://s.taobao.com/search?q={keyword}"
    html = get_page(url)
    if html:
        parse_product_details(html)

if __name__ == "__main__":
    keyword = input("请输入搜索关键字：")
    search_products(keyword)

三、代码解释

1. `get_page` 函数

使用 requests.get() 方法向目标 URL 发起请求。
设置了 User-Agent 和其他请求头，以模拟浏览器行为，避免被淘宝识别为爬虫。
检查响应的状态码，确保请求成功。

2. `parse_product_details` 函数

使用 BeautifulSoup 解析 HTML 内容。
使用 soup.select() 方法选择页面中的商品列表。这里假设商品信息被包裹在 <div class="m-itemlist"> 中。
遍历每个商品项，提取商品名称、价格、店铺名称和链接等信息。
使用 get_text(strip=True) 方法获取文本内容，并去除多余的空白字符。
使用 get('href') 方法获取商品链接。

3. `search_products` 函数

构造搜索 URL，将关键字拼接到 URL 中。
调用 get_page 函数获取页面 HTML。
调用 parse_product_details 函数解析商品信息。

四、注意事项

反爬机制：
- 淘宝可能会对爬虫进行限制，例如限制 IP 访问频率、检测异常请求等。如果遇到这种情况，可以尝试以下方法：
  - 使用代理服务器（如代理 IP 池）。
  - 增加请求间隔时间（使用 time.sleep()）。
  - 模拟更多浏览器行为（如设置更多请求头）。
动态加载内容：
- 淘宝的部分内容可能是通过 JavaScript 动态加载的。如果发现 requests 获取到的 HTML 内容中缺少某些数据，可以考虑使用 selenium 来模拟浏览器操作。
数据存储：
- 如果需要将爬取到的数据存储起来，可以将其保存到文件（如 CSV、JSON）或数据库中。

五、示例输出

假设搜索关键字为 "iPhone 13"，运行程序后可能输出如下：

请输入搜索关键字：iPhone 13
商品名称: iPhone 13
商品价格: ￥5499.00
店铺名称: 苹果官方旗舰店
商品链接: https://detail.tmall.com/item.htm?id=1234567890
------------------------
商品名称: iPhone 13 Pro
商品价格: ￥7999.00
店铺名称: 苹果官方旗舰店
商品链接: https://detail.tmall.com/item.htm?id=9876543210
------------------------
...

通过上述步骤和代码，你可以使用 requests 和 BeautifulSoup 实现按关键字搜索并解析淘宝商品信息的功能。希望这个示例对你有所帮助！