本来前几天就把豆瓣Top250的电影抓取下来了,但是一直没有时间来写博客,现在终于腾出一点时间来好好整理一下了
1.观察网页结构
首先需要登录豆瓣的网站:https://movie.douban.com/top250 ,通过审查元素,可以看到豆瓣的电影都是很整齐的放在li
里面,所以很方便我们爬取数据
通过展开第一个li
,可以看到我们需要的数据
2.观察网址的变化
通过点击页面的页数,我们发现网址也是很有规律的变化的,嘻嘻,是不是有种这个网站就是为爬虫而生的感觉
点击第二页时网址是 : https://movie.douban.com/top250?start=25&filter=
点击第三页时网址是 : https://movie.douban.com/top250?start=50&filter=