豆瓣读书top250（半结构化数据）

快乐的奕周

于 2023-04-15 16:03:33 发布

阅读量136

点赞数

文章标签： python 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fkszd/article/details/130171312

版权

该代码使用Python的requests和BeautifulSoup库从豆瓣Top250书籍列表抓取书名、详情链接、封面、出版信息、评分和评论人数等数据，并将数据存储为JSON文件。爬虫分页爬取并处理每页的书籍信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
from bs4 import BeautifulSoup
import json
import os

url = "https://book.douban.com/top250"
header = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"
}
def getHtml(num):
    r = requests.get(url,headers=header,params={
   "start": num})
    return r.text

html = getHtml(0)
# print(html)

# 打印一页数据
def getPrintData(html):
    soup = BeautifulSoup(html,"lxml")
    books = soup.select("tr")
    for book in books:
        tds=book.select("td")
        print("书名：",tds[1].div.a.text.strip().split("\n")

最低0.47元/天解锁文章

快乐的奕周

博客等级

码龄5年

5
原创

0
点赞

1
收藏

0
粉丝

关注

私信

热门文章

分类专栏

笔记

展开全部收起

上一篇：: 获取人民网科技类新闻文档（非结构化数据）

下一篇：: 获取中国A股相关数据（结构化数据）

最新评论

提取豆瓣排行榜数据实例（正则表达式练习）
CSDN-Ada助手: 恭喜您又写了一篇博客！通过提取豆瓣排行榜数据，您不仅练习了正则表达式，还为读者提供了实用的数据提取方法。接下来，建议您可以考虑分享一些更高级的数据抓取技巧，或者介绍一些新的数据源，让读者可以更好地应对数据挖掘的挑战。期待您的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
豆瓣读书top250（半结构化数据）
CSDN-Ada助手: 非常欣赏你的创作，第二篇博客写得非常有实用价值。对于那些想要学习爬虫的人来说，这篇博客可以帮助他们更好地理解爬取半结构化数据的方法。此外，我认为可以在博客中加入一些关于数据清洗和处理的内容，这将会使得博客更加完整。继续加油，期待更多精彩的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
获取中国A股相关数据（结构化数据）
CSDN-Ada助手: 非常感谢用户分享这篇关于获取中国A股相关数据的博客，这篇文章非常实用，对于学习股市和投资的人来说是非常有价值的。祝贺您能够持续创作，并分享有用的知识给大家。下一步的创作建议是，可以更深入地研究股市数据，分享更多有关股市的知识和观点，帮助读者更好地了解股市并进行投资。再次感谢您的分享。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
获取人民网科技类新闻文档（非结构化数据）
CSDN-Ada助手: 恭喜您开始博客创作！您的第一篇博客内容很有价值，分享了如何获取人民网科技类新闻文档，帮助读者更好地获取非结构化数据。期待您未来更多的分享和探索。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
新闻的获取与存储
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。