爬虫实战! 豆瓣图书Top250信息爬取教程：从代码实现到深度解析

最新推荐文章于 2025-05-18 11:02:18 发布

Lzy_.

最新推荐文章于 2025-05-18 11:02:18 发布

阅读量979

点赞数 11

文章标签：爬虫网络爬虫 python windows

本文链接：https://blog.csdn.net/m0_74867279/article/details/147445556

版权

一、引言

在当今数字化时代，数据蕴含着巨大的价值。豆瓣作为国内知名的文化社区，其图书Top250榜单汇聚了众多经典和热门的书籍信息。通过爬取这些信息，我们可以进行深入的数据分析，如了解不同类型书籍的受欢迎程度、挖掘高分书籍的共同特点等。本教程将详细介绍如何使用Python代码爬取豆瓣图书Top250的相关信息，并对代码进行深度解析，即使是初学者也能轻松理解和掌握。

二、准备工作

在开始编写代码之前，我们需要确保已经安装了必要的Python库。本教程主要使用以下三个库：

requests：用于发送HTTP请求，获取网页的内容。可以通过pip install requests命令进行安装。
BeautifulSoup：是一个强大的HTML解析库，能够方便地从网页内容中提取我们需要的信息。安装命令为pip install beautifulsoup4。
csv：Python内置的库，用于处理CSV文件，将爬取到的数据保存到CSV文件中。

三、代码实现

下面是完整的Python代码，用于爬取豆瓣图书Top250的信息并保存到CSV文件中：

import requests
from bs4 import BeautifulSoup
import csv

# 定义请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0'}

# 存储所有书籍信息的列表
all_books = []

# 循环遍历10页
for start in range(0, 250, 25):
    url = f'https://book.douban.com/top250?start={start}'
    try:
        # 发送请求获取页面内容
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        html_content = response.text
        # 解析HTML内容
        soup = BeautifulSoup(html_content, 'html.parser')
        # 找到所有书籍项
        book_items = soup.find_all('tr', class_='item')
        for item in book_items:
            # 提取书籍标题
            title = item.find('div', class_='pl2').a.text.strip().replace('\n', '').replace(' ', '')
            # 提取书籍评分
            rating = item.find('span', class_='rating_nums').text
            # 提取评价人数
            num_reviews = item.find('span', class_='pl').text.strip('() 人评价')
            # 提取书籍简介
            quote = item.find('span', class_='inq')
            if quote:
                quote = quote.text
            else:
                quote = '暂无简介'
            # 将书籍信息添加到列表中
            all_books.append([title, rating, num_reviews, quote])
    except requests.RequestException as e:
        print(f"请求 {url} 出错: {e}")

# 将数据保存到CSV文件
with open('douban_book_top250.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    # 写入表头
    writer.writerow(['书名', '评分', '评价人数', '简介'])
    # 写入书籍信息
    writer.writerows(all_books)

print("数据爬取并保存完成！")

四、代码解析

导入库：

import requests
 from bs4 import BeautifulSoup
 import csv

导入requests库用于发送HTTP请求，BeautifulSoup库用于解析HTML，csv库用于处理CSV文件。

设置请求头：

 headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0'}

设置User-Agent是为了模拟浏览器访问，避免被网站识别为爬虫而拒绝请求。这里使用了一个常见的浏览器User-Agent字符串。

初始化数据列表：

 all_books = []

创建一个空列表all_books，用于存储爬取到的所有书籍信息。

循环遍历页面：

 for start in range(0, 250, 25):
     url = f'https://book.douban.com/top250?start={start}'

豆瓣图书Top250榜单分为10页，每页25条数据。通过range函数生成页码参数start，并拼接成完整的URL，以便访问每一页的内容。

发送请求并处理响应：

 try:
     response = requests.get(url, headers=headers)
     response.raise_for_status()
     html_content = response.text

使用requests.get方法发送GET请求获取网页内容，并通过raise_for_status方法检查请求是否成功。如果请求失败，会抛出异常。如果成功，将网页内容存储在html_content变量中。

解析HTML内容：

 soup = BeautifulSoup(html_content, 'html.parser')

使用BeautifulSoup库将获取到的HTML内容解析为可操作的对象，这里使用html.parser作为解析器。

提取书籍信息：

 book_items = soup.find_all('tr', class_='item')
 for item in book_items:
     title = item.find('div', class_='pl2').a.text.strip().replace('\n', '').replace(' ', '')
     rating = item.find('span', class_='rating_nums').text
     num_reviews = item.find('span', class_='pl').text.strip('() 人评价')
     quote = item.find('span', class_='inq')
     if quote:
         quote = quote.text
     else:
         quote = '暂无简介'
     all_books.append([title, rating, num_reviews, quote])

首先找到所有包含书籍信息的<tr>标签（class为item），然后遍历这些标签，分别提取书籍的标题、评分、评价人数和简介信息。对于简介信息，如果未找到对应的<span>标签（class为inq），则设置为“暂无简介”。最后将提取到的书籍信息添加到all_books列表中。

保存数据到CSV文件：

 with open('douban_book_top250.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
     writer = csv.writer(csvfile)
     writer.writerow(['书名', '评分', '评价人数', '简介'])
     writer.writerows(all_books)

使用csv库将all_books列表中的数据写入到douban_book_top250.csv文件中。首先写入表头，然后写入每一行的书籍信息。