[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

最新推荐文章于 2023-11-12 22:49:40 发布

VIP文章 qq_23849183

最新推荐文章于 2023-11-12 22:49:40 发布

阅读量8.4k

点赞数 1

分类专栏： python 爬虫文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23849183/article/details/50654807

版权

这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息.
这里,仍然分为三步:
1.url分析
2.数据分析
3.爬取数据

1.url分析

豆瓣读书Top250的url分析和豆瓣电影Top250类似:
豆瓣读书Top250的url基本都是这样的:

http://book.douban.com/top250?start=

所以,同样我也是利用urlparse的urljoin函数来拼接自己所需要的url,传入urlopen()

2.数据分析

利用urlopen,我们得到response对象,接着传入BeautifulSoup得到BeautifulSoup对象.接下来便分析数据了.
查看源代码,我们发现每本书的名字都包含在具有title属性的a标签中,同时令我们惊喜的时,a标签中还有href属性,这样我们就可以直接获取这本书的名字和它所对应豆瓣网页,为我们接下来获取这本书的详细介绍打下基础.
这里写图片描述
于是,我们可以利用find_all()函数来查找所有具有title属性的a标签.同样,在这里find_all()函数也是在html文档树中从上到下查找,所以我们也不需要担心Top顺序,找到之后,我们还可以判断a标签是否含有href属性,如果有的话,就可以提取href属性对应的url来获取这本书的详细介绍了

代码介绍

在我的代码里,我主要声明了两

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息. 这里,仍然分为三步: 1.url分析 2.数据分析 3.爬取数据1.url分析豆瓣读书Top250的url分析和豆瓣电影Top250类似: 豆瓣读书Top250的url基本都是这样的: http://book.douban.com/top250?start=所以,同样我也是利用urlparse的url
复制链接

扫一扫

专栏目录

qq_23849183 CSDN认证博客专家 CSDN认证企业博客

码龄9年

57: 原创

26万+: 周排名

147万+: 总排名

8万+: 访问

: 等级

1415: 积分

11: 粉丝

22: 获赞

5: 评论

19: 收藏

私信

关注

热门文章

分类专栏

记录 20篇
题目解析 17篇
[记录] 2篇
排序 4篇
python 9篇
scala 16篇
Linux 6篇
爬虫 6篇
数据结构操作 2篇
shell 2篇
函数式编程 2篇
系统安装 1篇
编程细节 1篇
C++ 2篇

最新评论

python unicode-escape编码问题
CSDN_KXY: python2使用ASC11码作为默认编码方式, python3的默认编码为utf-8
python unicode-escape编码问题
暗黑码龙: 你的结果跟我的有出入。。。。 [code=python3] >>> s='\u871c\u7c89/\u6563\u7c89' >>> print(s) 蜜粉/散粉 [/code]
论python的类型推导
小米丙: 你狠无趣诶
论python的类型推导
frams: 被标题骗进来的
Win10下安装Ubuntu双系统
lightinaugust: 请问需要对Windows文件进行备份吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。