Python 爬虫项目实战六：抓取猫眼电影排行榜的数据

最新推荐文章于 2024-10-12 23:07:59 发布

码上飞扬

最新推荐文章于 2024-10-12 23:07:59 发布

阅读量790

点赞数 27

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_42132035/article/details/140908678

版权

在这篇博客中，我们将通过一个实际的Python爬虫项目，详细讲解如何抓取网页数据。本次选择的实战项目是抓取猫眼电影排行榜的数据，通过这个项目，你将学会如何使用Python编写爬虫，从网页中提取有用的电影信息。

一、项目准备

在开始之前，确保你已经安装了Python和以下几个关键的库：

requests：用于发送HTTP请求和获取网页内容。
Beautiful Soup：用于解析HTML内容，提取数据。
pandas：用于数据处理和分析。

你可以通过以下命令安装这些库：

pip install requests beautifulsoup4 pandas

二、项目步骤

分析网页结构

首先，我们需要打开猫眼电影排行榜的网页，并分析其HTML结构，找出我们需要抓取的电影信息的位置和标签。

发送HTTP请求

使用requests库发送GET请求，获取网页的HTML内容。

python

import requests

url = 'https://maoyan.com/board/4'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

解析网页内容

使用Beautiful Soup库解析HTML内容，提取电影的信息。

python

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

# 通过分析HTML结构，找出电影信息所在的标签和类名
movie_list = soup.find_all('div', class_='movie-item-info')

提取数据

遍历解析后的网页内容，提取电影的名称、主演、上映时间等信息，并存储到列表或字典中。

python

movies_data = []
for movie in movie_list:
    name = movie.find('p', class_='name').text.strip()
    actors = movie.find('p', class_='star').text.strip()
    release_time = movie.find('p', class_='releasetime').text.strip()
    movies_data.append({
        '电影名称': name,
        '主演': actors,
        '上映时间': release_time
    })

数据处理与存储

最后，可以将提取到的电影数据存储到CSV文件或者数据库中，或者进行进一步的数据分析和处理。

python
```
import pandas as pd

df = pd.DataFrame(movies_data)
df.to_csv('maoyan_movie_rank.csv', index=False, encoding='utf-8')
```