豆瓣Top250电影名怎么爬
参考博文:https://www.cnblogs.com/leon507/p/7614345.html
怎么实现
因为没有系统学习过,所以只能做搬运工。看了几篇有关爬取豆瓣Top250的电影信息,这篇是最简单易懂的了,所以摘过来学习学习。但这个博主的代码只是爬了电影名,然后也没有将爬到的数据保存到本地,那我就在他的基础上加了几行代码,将数据保存到本地了。
首先爬虫三部曲?
第一,requests爬取网页的HTML信息
第二,解析HTML。解析有很多种方法>_<
第三,保存本地
翻页信息
第一页:https://movie.douban.com/top250?start=0&filter=
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
第十页:https://movie.douban.com/top250?start=225&filter=
所以翻页规律就是 25*i (i+1)表示第几页
在网页源代码中定位需要爬取的信息
代码如下
加了一点自己的解释>_<
import requests
from bs4 import BeautifulSoup
def get_movies():