python：使用requests和bs4爬去豆瓣图书信息

最新推荐文章于 2024-08-14 11:44:10 发布

Young_Child

最新推荐文章于 2024-08-14 11:44:10 发布

阅读量982

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Young_Child/article/details/78571810

版权

本文介绍了如何使用Python的requests和BeautifulSoup库爬取豆瓣图书页面上的信息，特别是面对部分书籍信息不全时，如何处理可能的错误。在实际爬取过程中，注意到豆瓣页面的实际URL编码与显示的不一致，需要使用urllib.quote()进行转换。由于豆瓣图书标签页的页数并不总是准确，采用死循环和try_times机制来确保能正确结束爬虫，即使遇到没有图书信息的页面也能继续尝试。完整代码可在GitHub上查看。

摘要由CSDN通过智能技术生成

地址栏url格式
https://book.douban.com/tag/小说?start=0&type=T

真实url
https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

在地址栏显示的是小说可是真实的URL是个并不是图书2个字，而是一串乱码
可以用urllib.quote()进行转换

其中第一页start=0
每向后一页，+20

由于有的书的信息不全（比如当点评人数不足时，没有评分，所以用了很多的try，不然很容易会出错停止）


#读取每本书的信息
        for i in xrange(len(all_books)):
            try:
                book_name = all_books[i].find('a', att

最低0.47元/天解锁文章

Young_Child

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录