网络爬虫-用python获取豆瓣新书推荐信息

最新推荐文章于 2024-03-21 21:45:38 发布

a_step_further

最新推荐文章于 2024-03-21 21:45:38 发布

阅读量1.1k

点赞数

分类专栏：菜鸟练习本

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a_step_further/article/details/51638484

版权

本文介绍了如何使用Python进行网络爬虫，以获取豆瓣读书新书推荐的数据。通过解析网页元素，利用BeautifulSoup提取书籍的名称、作者和评分，并对二级页面进行迭代访问，展示了爬虫的入门应用。

摘要由CSDN通过智能技术生成

前言：

数据获取是数据分析师的职场必备技能，其中通过网络爬虫，自动、有组织地爬取一些网站数据，既实用，又有趣。本文通过对豆瓣新书速递页面及其子页面的迭代爬取，介绍python3环境下，网络爬虫的入门级用法。

其中的要点在于通过网页元素信息，定位到目标信息的标签格式，然后通过python的一些网络分析包，如 beautifulsoup 来有效提取相关信息。

一、要爬取的信息说明

豆瓣读书经常会推荐一些市面上的新书，其页面为https://book.douban.com/latest?icn=index-latestbook-all 。如果想查看每本书的详细信息，需要点击进去二级页面查看。那么，我们这里拿来练手的，就是先访问左下的介绍页面，获取推荐的书的总量，以及每本书的下一步页面链接，然后迭代访问每本书的详情页，找出书名、作者、评分信息。最终统一打印出来。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。