python爬虫：爬取豆瓣图书保存为json格式

最新推荐文章于 2023-06-18 10:40:21 发布

123jinse

最新推荐文章于 2023-06-18 10:40:21 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫文章标签： Python 爬虫豆瓣读书 json

本文链接：https://blog.csdn.net/qq_29541277/article/details/80048027

版权

该博客详细介绍了如何使用Python爬虫从豆瓣图书页面抓取书籍信息，包括标题、出版社、出版年份、页数、定价和ISBN，并将这些信息保存到JSON文件中。主要涉及requests、lxml和正则表达式库的使用。

摘要由CSDN通过智能技术生成

# -*-coding:utf-8-*-
import requests
import re
from lxml import etree
import json

# 每本书的所有信息都是从详情页面获取
# 定义一个大列表，保存字典数据，每一个字典都满足json格式，
# 但是组合在一起之后需要用列表来保存才满足json格式
allbks = []
for i in range(0, 7):
    url =