最近需要写一些爬虫来爬一爬公司的网站,就用python的爬虫教程网站“豆瓣电影 Top 250”试试手。(可怜的网站,无数人用它 来尝试hello world级别的爬虫)。
爬虫是一个从网页获取收据,分析呈现数据的过程。我们可以轻易获取网页上呈现的所有数据,这些数据类似于雕塑用的原石,而我们的重点在于如何把原石雕刻成雕塑。
整个过程需要三个步骤:
1.查看目的网页的网页源代码,分析那些数据是我们需要的
2.获取所有的数据,并过滤目标数据
3.组织并且呈现目标数据
首先我们打开https://movie.douban.com/top250 首页,发现所有的数据散布在10个不同的页面里,我们需要处理单个的页面,还要获取当前页面的下一页的链接,这说明我们的代码里或许要用到递归或者循环。
接着分析每一个页面,
每一个电影都在ol 下,一个电影的所有