爬取豆瓣电影Top 250的数据！保姆级教程-CSDN博客

本文链接：https://blog.csdn.net/2301_78095812/article/details/144268110

爬取豆瓣电影Top 250的页面内容，可以通过Python编写一个爬虫来实现。以下是一个简单的示例代码，展示了如何使用Python的requests库和BeautifulSoup库来爬取豆瓣电影Top 250的数据。

工具选择：
- Python提供了丰富的爬虫库和工具，如requests、BeautifulSoup、Scrapy等。
- 选择合适的工具可以大大提高你的爬虫效率。
数据格式：
- 豆瓣的数据通常以HTML、JSON等格式呈现。
- 对于HTML数据，你可以使用BeautifulSoup、lxml等库进行解析。
- 对于JSON数据，你可以直接使用requests库获取并解析。

以下是一个简单的Python爬虫示例，用于爬取豆瓣电影Top 250页面的前言部分：

首先，确保你已经安装了所需的库：

pip install requests beautifulsoup4

然后，你可以使用以下代码来爬取数据：

import requests
from bs4 import BeautifulSoup
import time

# 豆瓣电影Top 250的基础URL
BASE_URL = 'https://movie.douban.com/top250'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

def fetch_page(url):
    response = requests.get(url, headers=HEADERS)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Failed to fetch {url} with status code {response.status_code}")
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = []
    items = soup.find_all('div', class_='item')
    
    for item in items:
        rank = item.find('em').text
        title = item.find('span', class_='title').text
        rating_num = item.find('span', class_='rating_num').text
        quote = item.find('span', class_='inq')
        quote = quote.text if quote else 'N/A'
        
        movies.append({
            'rank': rank,
            'title': title,
            'rating_num': rating_num,
            'quote': quote
        })
    
    return movies

def main():
    all_movies = []
    for start in range(0, 250, 25):
        url = f'{BASE_URL}?start={start}&filter='
        print(f'Fetching page {start}/{250}...')
        html = fetch_page(url)
        if html:
            movies = parse_page(html)
            all_movies.extend(movies)
            # 为了避免请求过快被豆瓣封禁，加入延时
            time.sleep(1)
    
    # 打印或保存数据
    for movie in all_movies:
        print(movie)
    # 如果想保存到文件，可以使用以下代码
    # with open('douban_top250.txt', 'w', encoding='utf-8') as f:
    #     for movie in all_movies:
    #         f.write(f"Rank: {movie['rank']}, Title: {movie['title']}, Rating: {movie['rating_num']}, Quote: {movie['quote']}\n")

if __name__ == '__main__':
    main()

注意事项：

选择器准确性：上述代码中的soup.find('div', {'id': 'intro'})是一个假设的选择器，用于查找具有特定ID的div元素。你需要根据实际页面的HTML结构来确定正确的选择器。如果前言部分没有特定的ID或class，你可能需要使用其他属性或相邻元素来定位它。
页面结构变化：网站的结构可能会随着时间的推移而发生变化。如果爬虫代码突然无法工作，可能是因为目标网站的HTML结构已经发生了变化。在这种情况下，你需要重新检查页面源代码，并相应地更新你的选择器。
遵守规则：在爬取网站内容之前，请确保你遵守了该网站的robots.txt文件和服务条款。不要对服务器造成过大的负担，合理控制请求频率和数量。
动态内容：如果前言部分是通过JavaScript动态加载的，那么上述代码可能无法获取到它。在这种情况下，你可能需要使用像Selenium这样的浏览器自动化工具来模拟用户行为并加载动态内容。

希望这个示例能帮助你成功爬取豆瓣电影Top 250的数据！

如果你是准备学习Python或者正在学习（想通过Python兼职），下面这些你应该能用得上：

【点击这里】领取！
包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！
① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，学习不再是只会理论
④华为出品独家Python漫画教程，手机也能学习
⑤ 历年互联网企业Python面试真题,复习时非常方便
————————————————
在这里插入图片描述