python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

最新推荐文章于 2023-12-09 16:48:39 发布

qq_36523007

最新推荐文章于 2023-12-09 16:48:39 发布

阅读量1.4k

点赞数

分类专栏：爬虫和自动化测试文章标签：静态爬虫

本文链接：https://blog.csdn.net/qq_36523007/article/details/103455040

版权

python爬取豆瓣排行榜电影(静态爬取)

在这里插入图片描述
爬取页面上每个电影的名称、年份，评分和类型。

获取网站url

因为我们爬取的内容第一个页面没有，需要点击电影进入详情
在这里插入图片描述
所以我们需要获取每个电影链接的url
打开f12寻找标签

url = 'https://movie.douban.com/chart'
r = requests.get(url,headers=headers)
r_b = BeautifulSoup(r.text,'lxml')
a_list = r_b.find_all(class_='pl2')#找到所有class为pl2的标签，每个电影所在html中的标签
url_list = []
for a in a_list:
    url_list.append(a.find('a').attrs['href'])#获取标签a下和链接

获取网站headers

按下f12，选中Network,按下f5刷新，
在这里插入图片描述
找到Cookie、referer、user-Agent
设置headers

headers = {
   
    'Cookie':'bid=n_IZTjBerIQ; __yadk_uid=ycqCriKvT0a5PcKLRNhceCyhO4Sz0Fah; ll="108307"; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1575852775%2C%22https%3A%2F%2Fwww.google.com%2F%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utma=30149280.1355054136.1575426113.1575442804.1575852775.3; __utmb=30149280.0.10.1575852775; __utmc=30149280; __utmz=30149280.1575852775.3.2.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utma=223695111.1771316839.1575426113.1575442804.1575852776.3; __utmb=223695111.0.10.1575852776; __utmc=223695111; __utmz=223695111.1575852776.3.2.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr&