028. (7.27) scrapy爬取IMDb TOP250电影基本信息

最新推荐文章于 2021-02-20 02:40:19 发布

ORonaldinhoO

最新推荐文章于 2021-02-20 02:40:19 发布

阅读量594

点赞数 1

本文链接：https://blog.csdn.net/u013598957/article/details/107623988

版权

本文介绍了使用Scrapy爬取IMDb TOP250电影基本信息的过程，强调了提前分析网页的重要性，以及如何通过正则表达式提取关键数据。同时，针对'FeedExporter'对象无'slot'属性的错误，提供了关闭文件再运行Scrapy的解决方案，并提及在使用Request和meta传递数据时，应用deepcopy避免数据污染。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取IMDb TOP250电影基本信息

主要代码

items:

import scrapy

class ImdbItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    rank = scrapy.Field()

    movie_name = scrapy.Field()
    movie_type = scrapy.Field()
    director = scrapy.Field()
    writer = scrapy.Field()
    stars = scrapy.Field()
    score = scrapy.Field()

    country = scrapy.Field()
    metascore = scrapy.Field()
    movie_length = scrapy.Field()
    year = scrapy.Field()
    comment_num = scrapy.Field()
    critic_num = scrapy.Field()
    CWG = scrapy.Field()
    # budget = scrapy.Field()
    # budget_type = scrapy.Field()

spiders:

# -*- coding: utf-8 -*-
import scrapy
from imdb.items import ImdbItem
import re
import time
import copy

# scrapy crawl rank -o rank.csv

class RankSpider(scrapy.Spider):
    name = 'rank'
    allowed_domains = ['imdb.com']
    start_urls = ['https://www.imdb.com/chart/top/?ref_=nv_mv_250']

    # request top250 page, get movie url
    def parse(self, response):
        item = ImdbItem()
        rank_list = response.xpath('//td[@class="titleColumn"]/text()').re('\d+')
        movie_index = 0

        for i in rank_list:
            detail_url = response.xpath(

最低0.47元/天解锁文章