[爬虫系列(一)]爬取豆瓣电影排行前250

最新推荐文章于 2024-05-13 15:07:13 发布

qq_23849183

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量5.6k

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23849183/article/details/50654714

版权

这是个小爬虫,基于python2.7.主要用到了BeautifulSoup库和urllib2的urlopen,爬取豆瓣电影排行前250,并保存在文件中.
主要分为三个步骤:
* 分析url
* 分析网站数据
* 爬取数据

一.分析url

豆瓣电影排行榜250的url很好分析:
格式都是这样子的:

http://movie.douban.com/top250?start=(page_num)&filter=

并且当start=0,对应的是排名1到25的电影,start=25对应的是排名25到50的电影,以此类推,我们便可以得到所有的url

http://movie.douban.com/top250?start=0&filter=
http://movie.douban.com/top250?start=25&filter=
http://movie.douban.com/top250?start=50&filter=

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[爬虫系列(一)]爬取豆瓣电影排行前250

这是个小爬虫,基于python2.7.主要用到了BeautifulSoup库和urllib2的urlopen,爬取豆瓣电影排行前250,并保存在文件中. 主要分为三个步骤: * 分析url * 分析网站数据 * 爬取数据一.分析url豆瓣电影排行榜250的url很好分析: 格式都是这样子的: http://movie.douban.com/top250?start=(page_num)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。