使用scrapy再次爬取猫眼前100榜单电影

最新推荐文章于 2021-01-25 13:23:20 发布

sl01224318

最新推荐文章于 2021-01-25 13:23:20 发布

阅读量1.6k

点赞数 1

分类专栏：爬虫 python 文章标签： xpath 爬虫 python

本文链接：https://blog.csdn.net/sl01224318/article/details/109551861

版权

本文介绍如何使用Scrapy框架抓取猫眼电影前100榜单的电影名称、主演、上映时间、评分和图片链接，并将图片保存至本地。通过浏览器开发者工具定位元素，利用XPath提取信息，涉及spider、item.py和settings.py的代码实现。

摘要由CSDN通过智能技术生成

前提：

记得去年5月份左右的时候写过一篇使用Requests方法来爬取猫眼榜单电影的文章，今天偶然翻到了这篇文章，又恰巧最近在学scrapy框架进行爬虫，于是决定饶有兴趣的使用scrapy框架再次进行爬取。

说明：

如图所示，这次爬取的猫眼榜单网页链接内容大致如下（图1-1），这次需要爬取的信息分别是电影名称、主演、上映时间、电影评分和电影图片链接，然后将获取的电影图片下载保存到本地，如图1-2所示。

图1-1

图1-2

爬虫解析:

1、首先使用谷歌浏览器打开网页，然后按下键盘“F12”进入开发者工具调试界面，选择左上角的箭头图标，然后鼠标移至一个电影名处，就可以定位到该元素源代码的具体位置，定位到元素的源代码之后，可以从源代码中读出改元素的属性，如图2-1所示：

图2-1

2、从上图可以看出，我们需要的信息隐藏在这个节点和属性值中，接下来就是如何获取到这些节点信息和属性值的问题，这里最简答的方法就是选择一个节点后，右击鼠标选择“Copy-Copy Xpath”,通过xpath方法来定位元素来获取信息。具体的xpath定位元素的使用方法，可自行百度进行学习。

代码：

spider文件

# -*- coding: utf-8 -*-
import scrapy
from maoyan.items import MaoyanItem
import urllib

class Top100Spider(scrapy.Spider):
    name = 'top_100'
    allowed_domains = ['trade.maoyan.co

最低0.47元/天解锁文章

sl01224318

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy再次爬取猫眼前100榜单电影

前提：记得去年5月份左右的时候写过一篇使用Requests方法来爬取猫眼榜单电影的文章，今天偶然翻到了这篇文章，又恰巧最近在学scrapy框架进行爬虫，于是饶有兴趣的使用scrapy框架再次进行爬取。说明：如图所示，这次爬取的猫眼榜单网页链接内容大致如下（图1-1），这次需要爬取的信息分别是电影名称、主演、上映时间、电影评分和电影图片链接，然后将获取的电影图片下载保存到本地，如图1-2所示。 ...
复制链接

扫一扫

专栏目录