前言
爬取豆瓣电影TOP250需要遵循豆瓣的服务条款和隐私政策,并确保你的爬虫行为不会给豆瓣的服务器带来过大的负担。以下是一个使用Python和requests及BeautifulSoup库来爬取豆瓣电影TOP250的示例代码。请注意,这个示例代码仅供学习用途,实际使用时请确保你的行为合法合规。
一、第三方库
首先,确保你已经安装了必要的库:
pip install requests beautifulsoup4
二、使用代码
然后,你可以使用以下代码来爬取豆瓣电影TOP250:
import requests
from bs4 import BeautifulSoup
import time
import os
# 设置请求头,模仿浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 定义豆瓣电影TOP250的URL
base_url = 'https://movie.douban.com/top250'
# 初始化一个空列表来存储电影信息
movies = []
# 定义一个函数来爬取一个页面的电影信息
def get_one_page(url):
response = requests.get(url, headers=headers)
if response.status_code == 200: