使用scrapy再次爬取猫眼前100榜单电影！

最新推荐文章于 2021-01-25 13:23:20 发布

pythonlaodi

最新推荐文章于 2021-01-25 13:23:20 发布

阅读量476

点赞数

本文链接：https://blog.csdn.net/pythonlaodi/article/details/109578357

版权

本文介绍了使用Scrapy框架再次爬取猫眼前100电影榜单的过程，包括需要爬取的电影信息（名称、主演、上映时间、评分和图片链接）以及如何使用XPath定位元素。在完成爬取后，电影图片被保存到本地。

摘要由CSDN通过智能技术生成

前提：

记得去年5月份左右的时候写过一篇使用Requests方法来爬取猫眼榜单电影的文章，今天偶然翻到了这篇文章，又恰巧最近在学scrapy框架进行爬虫，于是决定饶有兴趣的使用scrapy框架再次进行爬取。

说明：

如图所示，这次爬取的猫眼榜单网页链接内容大致如下（图1-1），这次需要爬取的信息分别是电影名称、主演、上映时间、电影评分和电影图片链接，然后将获取的电影图片下载保存到本地，如图1-2所示。

图1-1

图1-2

爬虫解析:

1、首先使用谷歌浏览器打开网页，然后按下键盘“F12”进入开发者工具调试界面，选择左上角的箭头图标，然后鼠标移至一个电影名处，就可以定位到该元素源代码的具体位置，定位到元素的源代码之后，可以从源代码中读出改元素的属性，如图2-1所示：

图2-1

2、从上图可以看出，我们需要的信息隐藏在这个节点和属性值中，接下来就是如何获取到这些节点信息和属性值的问题，这里最简答的方法就是选择一个节点后，右击鼠标选择“Copy-Copy Xpath”,通过xpath方法来定位元素来获取信息。具体的xpath定位元素的使用方法，可自行百度进行学习。

代码：

spider文件

# -*- coding: utf-8 -*-
import scrapy
from maoyan.items import MaoyanItem
import urllib
 
class Top100Spider(scrapy.Spider):
    name = 'top_100'
    allowed_domains = ['trade.maoyan.com']
    start_urls = ['https://trade.maoyan.com/board/4']

最低0.47元/天解锁文章

pythonlaodi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫