网络爬虫-用python获取豆瓣新书推荐信息

本文介绍了如何使用Python进行网络爬虫,以获取豆瓣读书新书推荐的数据。通过解析网页元素,利用BeautifulSoup提取书籍的名称、作者和评分,并对二级页面进行迭代访问,展示了爬虫的入门应用。
摘要由CSDN通过智能技术生成

前言:

     数据获取是数据分析师的职场必备技能,其中通过网络爬虫,自动、有组织地爬取一些网站数据,既实用,又有趣。本文通过对豆瓣新书速递页面及其子页面的迭代爬取,介绍python3环境下,网络爬虫的入门级用法。

    其中的要点在于通过网页元素信息,定位到目标信息的标签格式,然后通过python的一些网络分析包,如 beautifulsoup 来有效提取相关信息。


一、要爬取的信息说明

       豆瓣读书经常会推荐一些市面上的新书,其页面为https://book.douban.com/latest?icn=index-latestbook-all 。如果想查看每本书的详细信息,需要点击进去二级页面查看。那么,我们这里拿来练手的,就是先访问左下的介绍页面,获取推荐的书的总量,以及每本书的下一步页面链接,然后迭代访问每本书的详情页,找出书名、作者、评分信息。最终统一打印出来。

       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值