这是简易数据分析系列的第 5 篇文章。
上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。
前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以预测他们的行为,达到我们的目的。
今天我们就找找豆瓣网站的规律,想办法抓取全部数据。今天的规律就从常常被人忽略的网址链接开始。
1.链接分析
我们先看看第一页的豆瓣网址链接:
https://movie.douban.com 这个很明显就是个豆瓣的电影网址,没啥好说的
top250 这个一看就是网页的内容,豆瓣排名前 250 的电影,也没啥好说的
? 后面有个start=0&filter= ,根据英语提示来看,好像是说筛选(filter),从 0 开始(start)
再看看第二页的网址链接,前面都一样,只有后面的参数变了,变成了 start=25,从 25 开始;
我们再看看第三页的链接,参数变成了 start=50,从 50 开始;
分析 3 个链接我