首先我们先分析一下页面
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
通过滚动鼠标发现这个页面是通过动态加载的
找到这个链接,这个里面才有我们想要的信https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20
通过这个URL可以看出是Ajax请求,所以要想让它动态加载的话只需要更改start的值(start是开始加载的页面数量位置,limit是一次性加载的数量)
可以看到这个里面是json字符串类型,所以我们写爬虫的时候要转换类型
import json
import requests
def run(url):
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
#verify参数是为了取消ssl验证
respones = requests.get(url,verify=False,headers=head)
jsstr = respones.content.decode()
jsdata = json.loads(jsstr)
return jsdata
if __name__ == '__main__':
for num in range(0,20):
url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
info = run(url)
print(info)
运行结果如下,成功抓到我们想要的数据(红色那个ssl的警告不是错误)
如果只想拿其中的一些数据,可以遍历一下
import json
import requests
def run(url):
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
#verify参数是为了ssl验证
respones = requests.get(url,verify=False,headers=head)
jsstr = respones.content.decode()
jsdata = json.loads(jsstr)
for i in jsdata:
#电影名字
print(i["title"])
#url
print(i["url"])
#评分
print(i["score"])
if __name__ == '__main__':
for num in range(0,20):
url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
info = run(url)
运行结果如下
总共有600多部影片,所以最终代码如下
import json
import requests
def run(url):
head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
#verify参数是为了ssl验证
respones = requests.get(url,verify=False,headers=head)
jsstr = respones.content.decode()
jsdata = json.loads(jsstr)
for i in jsdata:
#电影名字
print(i["title"])
#url
print(i["url"])
#评分
print(i["score"])
if __name__ == '__main__':
for num in range(0,34):
url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
info = run(url)