[爬虫系列(二)]爬取豆瓣读书Top250,并保存每本书

这里我们要爬起豆瓣读书Top250,并保存每本书的书名,信息,简要介绍和作者信息.
这里,仍然分为三步:
1.url分析
2.数据分析
3.爬取数据

1.url分析

豆瓣读书Top250的url分析和豆瓣电影Top250类似:
豆瓣读书Top250的url基本都是这样的:

http://book.douban.com/top250?start=

所以,同样我也是利用urlparse的urljoin函数来拼接自己所需要的url,传入urlopen()

2.数据分析

利用urlopen,我们得到response对象,接着传入BeautifulSoup得到BeautifulSoup对象.接下来便分析数据了.
查看源代码,我们发现每本书的名字都包含在具有title属性的a标签中,同时令我们惊喜的时,a标签中还有href属性,这样我们就可以直接获取这本书的名字和它所对应豆瓣网页,为我们接下来获取这本书的详细介绍打下基础.
这里写图片描述
于是,我们可以利用find_all()函数来查找所有具有title属性的a标签.同样,在这里find_all()函数也是在html文档树中从上到下查找,所以我们也不需要担心Top顺序,找到之后,我们还可以判断a标签是否含有href属性,如果有的话,就可以提取href属性对应的url来获取这本书的详细介绍了

代码介绍

在我的代码里,我主要声明了两

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值