网络爬虫：爬取猫眼电影最受期待榜

张三先生⁠

已于 2024-01-29 11:23:43 修改

阅读量953

点赞数 12

文章标签：爬虫 python

于 2024-01-29 00:10:06 首次发布

本文链接：https://blog.csdn.net/m0_71403562/article/details/135902380

版权

一、爬虫任务描述

爬取猫眼电影最受期待榜单的数据信息，主要包括电影名、主演、上映日期，并将数据保存为csv格式文件。

二、网站及HTML代码解析

一、网站变化

第一页:

第二页:

第三页:

3页url作比较：

第一页：https://www.maoyan.com/board/6?timeStamp=1705915541968

第二页：https://www.maoyan.com/board/6?timeStamp=1705915541968&offset=10

第三页：https://www.maoyan.com/board/6?timeStamp=1705915541968&offset=20

从上面的url可以看出，只有offset这个参数在变化，并且逐页递增量为10。

二、HTML代码解析

右键检查html代码，可以看出我们需要的信息都在<div class="movie-item-info">元素中。

电影名：div class="movie-item-info" -> p class="name" -> a -> 文本

主演：div class="movie-item-info" -> p class="star" -> 文本

上映时间：div class="movie-item-info" -> p class="releasetime" -> 文本

三、代码实现

1.导入相关库，requests库用于发送HTTP请求获取响应，parsel库用于解析HTML文档，csv库用于处理CSV文件。

import requests
import parsel
import csv

2.设置请求头，模拟浏览器访问。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 '
                  'Safari/537.36 '
}

3.以写入模式打开名为"expected_movies.csv"的CSV文件，定义表头为"name"、"star"和"time"。然后创建一个CSV文件的写入对象，并将表头写入到文件中。

with open('expected_movies.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['name', 'star', 'time']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()

4.获取用户输入的爬取页数，然后遍历每一页。在每一页中，打印当前页数，构造URL并发送GET请求获取网页内容。使用parsel库解析网页内容，提取电影信息所在的CSS选择器。

    page_num = int((input("请输入爬取页数：")))
    for page in range(0, page_num):
        print(f"第{page + 1}页")
        url = f'https://www.maoyan.com/board/6?timeStamp=1705915541968&offset={page * 10}'
        response = requests.get(url=url, headers=headers)
        select = parsel.Selector(response.text)
        info = select.css('.movie-item-info')

5.遍历每一条电影信息，提取电影名称、主演和上映时间，并打印出来。然后将这些信息写入到CSV文件中。

        for i in info:
            name = i.css('.name a::text').get()
            star = i.css('.star::text').get()
            time = i.css('.releasetime::text').get()
            print(name, star, time)
            writer.writerow({
                'name': name,
                'star': star,
                'time': time
            })

完整代码：

import requests
import parsel
import csv

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 '
                  'Safari/537.36 '
}

with open('expected_movies.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['name', 'star', 'time']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()

    page_num = int((input("请输入爬取页数：")))
    for page in range(0, page_num):
        print(f"第{page + 1}页")
        url = f'https://www.maoyan.com/board/6?timeStamp=1705915541968&offset={page * 10}'
        response = requests.get(url=url, headers=headers)
        select = parsel.Selector(response.text)
        info = select.css('.movie-item-info')
        for i in info:
            name = i.css('.name a::text').get()
            star = i.css('.star::text').get()
            time = i.css('.releasetime::text').get()
            print(name, star, time)
            writer.writerow({
                'name': name,
                'star': star,
                'time': time
            })

四、运行结果

pycharm运行:

pycharm打开保存的expected_movies.csv文件:

张三先生⁠

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫：爬取猫眼电影最受期待榜

3.以写入模式打开名为"expected_movies.csv"的CSV文件，定义了表头为"name"、"star"和"time"。上映时间：div class="movie-item-info" -> p class="releasetime" -> 文本。电影名：div class="movie-item-info" -> p class="name" -> a -> 文本。主演：div class="movie-item-info" -> p class="star" -> 文本。
复制链接

扫一扫