【2024最新】python爬虫爬取豆瓣电影TOP250

辰辰很哇塞啊

于 2024-12-07 17:39:56 发布

阅读量1.6k

点赞数 14

文章标签： python 爬虫开发语言 python3.11 ipython pycharm

本文链接：https://blog.csdn.net/2401_89383376/article/details/144313312

版权

文章目录

前言
一、第三方库
二、使用代码
三、运行结果
总结

前言

爬取豆瓣电影TOP250需要遵循豆瓣的服务条款和隐私政策，并确保你的爬虫行为不会给豆瓣的服务器带来过大的负担。以下是一个使用Python和requests及BeautifulSoup库来爬取豆瓣电影TOP250的示例代码。请注意，这个示例代码仅供学习用途，实际使用时请确保你的行为合法合规。

一、第三方库

首先，确保你已经安装了必要的库：

pip install requests beautifulsoup4

二、使用代码

然后，你可以使用以下代码来爬取豆瓣电影TOP250：
import requests
from bs4 import BeautifulSoup
import time
import os

# 设置请求头，模仿浏览器访问
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 定义豆瓣电影TOP250的URL
base_url = 'https://movie.douban.com/top250'

# 初始化一个空列表来存储电影信息
movies = []

# 定义一个函数来爬取一个页面的电影信息
def get_one_page(url):
    response = requests.get(url, headers=headers)
    if response.status_code == 200: