这是个小爬虫,基于python2.7.主要用到了BeautifulSoup库和urllib2的urlopen,爬取豆瓣电影排行前250,并保存在文件中.
主要分为三个步骤:
* 分析url
* 分析网站数据
* 爬取数据
一.分析url
豆瓣电影排行榜250的url很好分析:
格式都是这样子的:
并且当start=0,对应的是排名1到25的电影,start=25对应的是排名25到50的电影,以此类推,我们便可以得到所有的url
http://movie.douban.com/top250?start=0&filter=
http://movie.douban.com/top250?start=25&filter=
http://movie.douban.com/top250?start=50&filter=