【爬虫Practice2】爬取豆瓣高分电影

最新推荐文章于 2024-05-08 22:58:13 发布

小脏狗

最新推荐文章于 2024-05-08 22:58:13 发布

阅读量296

点赞数

分类专栏：爬虫文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/lily_i/article/details/121879843

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

- - 爬取豆瓣高分电影
  - 爬取过程可能存在的问题

这一节是爬取豆瓣高分电影排行榜，具体参数可以改动，比如什么种类电影、年份等，观察一下request的参数就可以了。

爬取豆瓣高分电影

import requests
import json
import re
from fake_useragent import UserAgent

if __name__ =="__main__":
    get_url = 'https://movie.douban.com/j/new_search_subjects?'
    params = {
        'sort': 'S',
        'range': '0,10',
        'tags': '电影',
        'start': '0',
        'genres': '剧情',
        'year_range': '2010,2019'
    }
    user = UserAgent()
    headers = {
        'User-Agent' : user.random
    }
    response = requests.get(url=get_url, params=params, headers=headers)
    list_data = response.text
    fp = open('./filmtop.json', 'w', encoding='utf-8')
    json.dump(fp, list_data, ensure_ascii=False)
    print("OK!!!")

爬取过程可能存在的问题

报错信息：在获取豆瓣高分电影时IP被封

# IP请求次数过多 请登录豆瓣

解决方法：获取伪造UA的库, 上面的代码中已经改进过。

$ pip install fake-useragent   #终端输入的pip install直接下载到当前文件夹 要复制到c盘的sites-pakage下面

from fake_useragent import UserAgent 
ua = UserAgent()
ua.random

小脏狗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫Practice2】爬取豆瓣高分电影

文章目录爬取豆瓣高分电影爬取过程可能存在的问题这一节是爬取豆瓣高分电影排行榜，具体参数可以改动，比如什么种类电影、年份等，观察一下request的参数就可以了。爬取豆瓣高分电影import requestsimport jsonimport refrom fake_useragent import UserAgentif __name__ =="__main__": get_url = 'https://movie.douban.com/j/new_search_subjects
复制链接

扫一扫