爬虫之爬取豆瓣排行榜

最新推荐文章于 2024-04-11 09:24:23 发布

24K菜菜菜鸟

最新推荐文章于 2024-04-11 09:24:23 发布

阅读量751

点赞数 2

分类专栏：爬虫文章标签： pyhon 爬虫 Ajax请求 json解析

本文链接：https://blog.csdn.net/MQL1341480611/article/details/103413640

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

首先我们先分析一下页面
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=

通过滚动鼠标发现这个页面是通过动态加载的
在这里插入图片描述

找到这个链接，这个里面才有我们想要的信https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20
通过这个URL可以看出是Ajax请求,所以要想让它动态加载的话只需要更改start的值（start是开始加载的页面数量位置，limit是一次性加载的数量）
在这里插入图片描述

可以看到这个里面是json字符串类型，所以我们写爬虫的时候要转换类型

import json
import requests

def run(url):

    head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

    #verify参数是为了取消ssl验证
    respones = requests.get(url,verify=False,headers=head)
    jsstr = respones.content.decode()
    jsdata = json.loads(jsstr)
    return jsdata
if __name__ == '__main__':
    for num in range(0,20):
        url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
        info = run(url)
        print(info)

运行结果如下，成功抓到我们想要的数据（红色那个ssl的警告不是错误）
在这里插入图片描述

如果只想拿其中的一些数据，可以遍历一下

import json
import requests

def run(url):

    head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

    #verify参数是为了ssl验证
    respones = requests.get(url,verify=False,headers=head)

    jsstr = respones.content.decode()

    jsdata = json.loads(jsstr)

    for i in jsdata:
        #电影名字
        print(i["title"])
        #url
        print(i["url"])
        #评分
        print(i["score"])

if __name__ == '__main__':
    for num in range(0,20):
        url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
        info = run(url)

运行结果如下
在这里插入图片描述

在这里插入图片描述
总共有600多部影片，所以最终代码如下

import json
import requests

def run(url):

    head = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

    #verify参数是为了ssl验证
    respones = requests.get(url,verify=False,headers=head)

    jsstr = respones.content.decode()

    jsdata = json.loads(jsstr)

    for i in jsdata:
        #电影名字
        print(i["title"])
        #url
        print(i["url"])
        #评分
        print(i["score"])

if __name__ == '__main__':
    for num in range(0,34):
        url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(num*20)+'&limit=20'
        info = run(url)

24K菜菜菜鸟

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫之爬取豆瓣排行榜

首先我们先分析一下页面https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=可以看到这个链接并没有我们想要的信息，所以接着往下找直到找到这个链接，这个里面才有我们想要的信https://movie.douban.com/j/ch...
复制链接

扫一扫