Python爬虫实战：手把手教你抓取豆瓣电影Top250（新手友好版）

最新推荐文章于 2025-06-13 10:25:00 发布

kernelcraft

最新推荐文章于 2025-06-13 10:25:00 发布

阅读量571

点赞数 9

文章标签： python 爬虫开发语言其他

本文链接：https://blog.csdn.net/kernelcraft/article/details/147983875

版权

文章目录

先看成果再学操作！

打开咱们的Python编辑器运行代码，2秒钟就能看到控制台刷刷刷输出电影数据，最后还会生成一个整整齐齐的movies.csv文件！这种立竿见影的成就感，就是编程最爽的时刻啊朋友们！（谁试谁知道~）

环境准备三件套

安装Python（推荐3.8+版本）
pip install requests beautifulsoup4（必装！）
准备个趁手的编辑器（VS Code/PyCharm都行）

四步搞定爬虫基础版

第一步：发送HTTP请求

import requests

url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers)
print(f'响应状态码：{response.status_code}')  # 200就是成功啦！

重要的事情说三遍：加Headers！加Headers！加Headers！ 很多网站会拦截没有User-Agent的请求，这个伪装浏览器的小技巧能让你成功率提升80%！

第二步：解析HTML数据

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='info')

for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    print(f'电影：{title} | 评分：{rating}')

BeautifulSoup就像个智能剪刀✂️，用find()和find_all()就能精准剪出需要的内容。注意class后面有个下划线class_，这是Python语法要求，不是打错了！

第三步：数据存储

import csv

with open('movies.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名称', '评分', '短评数量'])
    
    for movie in movies:
        title = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        comment = movie.find('div', class_='star').find_all('span')[-1].text
        writer.writerow([title, rating, comment])

生成CSV文件就像给数据安了个家🏠，用Excel就能直接打开查看。进阶玩家可以改成MySQL存储，加个INSERT INTO语句就OK！

第四步：处理分页

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={page}'
    response = requests.get(url, headers=headers)
    # 接上面的解析和存储代码
    time.sleep(3)  # 做个有道德的爬虫er~

循环10次就能抓取全部250条数据！注意time.sleep(3)这个操作，访问太频繁可能会被网站拉黑名单哦（别问我怎么知道的）😅

新手常见问题急救包

报错403怎么办？
- 检查User-Agent是否有效
- 试试加个Cookie（浏览器按F12就能找到）
- 用requests.Session()保持会话
数据抓取不全？
- 检查class名称是否写对
- 试试用select()代替find()
- 打印整个标签看结构print(movie.prettify())
被封IP了咋整？
- 使用代理IP池（进阶玩法）
- 降低请求频率（至少3秒/次）
- 换用Selenium模拟浏览器