首先进行url分析:
第一页、第二页、第三页的url如下:
https://movie.douban.com/top250
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=
其中,第一页也等价于
https://movie.douban.com/top250?start=0&filter=
页面分析:
这里一个
- 标签就代表一部电影。
且所有想要获取的目标数据都在
标签中。
1.导包
from lxml import etree
import requests
import csv
2.拿到目标url
doubanUrl = ‘https://movie.douban.