python:使用requests和bs4爬去豆瓣图书信息

本文介绍了如何使用Python的requests和BeautifulSoup库爬取豆瓣图书页面上的信息,特别是面对部分书籍信息不全时,如何处理可能的错误。在实际爬取过程中,注意到豆瓣页面的实际URL编码与显示的不一致,需要使用urllib.quote()进行转换。由于豆瓣图书标签页的页数并不总是准确,采用死循环和try_times机制来确保能正确结束爬虫,即使遇到没有图书信息的页面也能继续尝试。完整代码可在GitHub上查看。
摘要由CSDN通过智能技术生成

地址栏url格式
https://book.douban.com/tag/小说?start=0&type=T

真实url
https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

在地址栏显示的是小说可是真实的URL是个并不是图书2个字,而是一串乱码
可以用urllib.quote()进行转换

其中第一页start=0
每向后一页,+20


由于有的书的信息不全(比如当点评人数不足时,没有评分,所以用了很多的try,不然很容易会出错停止)


#读取每本书的信息
        for i in xrange(len(all_books)):
            try:
                book_name = all_books[i].find('a', att
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值