爬取猫眼电影网前100的电影排名
猫眼电影网:http://maoyan.com/board/4
确定要爬取的数据:
1:排名
2:电影名称
3:主演
4:上映舌尖
5:评分
构造下一页url
首页:http://maoyan.com/board/4?offset=0
第二页 http://maoyan.com/board/4?offset=10
第十页 http://maoyan.com/board/4?offset=100
我们发现url中变化的只有数字 那么我们可以通过循环构造出这个url
我们需要的信息全都在这些标签中:
用红色圈起来的地方 就是我们需要的信息 我们一个个找到他们 然后将信息提取出来
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/11/5 18:06
# @Desc : 爬取猫眼电影网前100的电影排名
import requests
import json
from pyquery import PyQuery as pq
headers = {
'proxy': 'https: 219.135.169.85:47315',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36'
' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}